Compartilhamento dinâmico de recursos no SageMaker HyperPod
A AWS anunciou uma nova capacidade para o SageMaker HyperPod: o suporte a compartilhamento dinâmico de recursos através de sua funcionalidade de governança de tarefas. Esse recurso permite que equipes acessem capacidade computacional não alocada em clusters HyperPod além das quotas garantidas que possuem. Ao mesmo tempo, administradores podem configurar limites de empréstimo para tipos específicos de recursos, como aceleradores, vCPUs ou memória, assegurando uma distribuição justa entre as equipes.
O desafio da subutilização em clusters compartilhados
Administradores que gerenciam clusters computacionais compartilhados para workloads de IA generativa frequentemente enfrentam um desafio importante: a subutilização de recursos. Quando cientistas de dados não utilizam completamente suas quotas alocadas, instâncias computacionais caras permanecem ociosas, resultando em desperdício. O compartilhamento de recursos ociosos soluciona esse problema identificando automaticamente capacidade de cluster não alocada e disponibilizando-a para que equipes possam utilizá-la sob regime de melhor esforço.
Como funciona o sistema automático
A governança de tarefas do HyperPod monitora continuamente o estado do cluster e recalcula automaticamente quais recursos podem ser emprestados quando instâncias e políticas de quota computacional mudam, eliminando a necessidade de configuração manual. Instâncias elegíveis que se encontram em estado pronto e agendável, incluindo aquelas com configurações de GPU particionadas, contribuem para o pool de capacidade computacional disponível para empréstimo.
Controle fino sobre distribuição de recursos
Administradores podem definir limites de empréstimo absolutos além de limites baseados em percentuais da capacidade ociosa. Essa flexibilidade permite que administradores maximizem a utilização computacional e mantenham controle granular sobre como a capacidade ociosa é distribuída entre equipes, enquanto garantem isolamento de quota computacional para cada uma delas.
Disponibilidade regional
Essa capacidade está atualmente disponível para clusters Amazon SageMaker HyperPod que utilizam o orquestrador EKS (Elastic Kubernetes Service) nas seguintes regiões AWS: US East (N. Virginia), US East (Ohio), US West (N. California), US West (Oregon), Asia Pacific (Mumbai), Asia Pacific (Singapore), Asia Pacific (Sydney), Asia Pacific (Tokyo), Asia Pacific (Jakarta), Europe (Frankfurt), Europe (Ireland), Europe (London), Europe (Stockholm), Europe (Spain) e South America (São Paulo).
Próximos passos
Para conhecer mais detalhes sobre essa capacidade, consulte a página do SageMaker HyperPod e a documentação de governança de tarefas do HyperPod.
Fonte
SageMaker HyperPod now supports idle resource sharing for dynamic cluster utilization (https://aws.amazon.com/about-aws/whats-new/2026/03/sagemaker-hyperpod-idle-resource-sharing/)
Leave a Reply