Amazon SageMaker HyperPod passa a gerenciar automaticamente a topologia do Slurm

Gerenciamento automático de topologia no SageMaker HyperPod

A AWS anunciou uma melhoria significativa no Amazon SageMaker HyperPod: o serviço agora seleciona e mantém automaticamente a configuração ideal de topologia de rede para clusters Slurm, levando em conta os tipos de instâncias GPU presentes no cluster.

Por que a topologia de rede importa no treinamento distribuído

A topologia de rede tem impacto direto na performance do treinamento distribuído. Quando os jobs são alocados em nós que estão topologicamente próximos uns dos outros, a comunicação entre GPUs se torna mais rápida, as operações coletivas do NCCL ficam mais eficientes e o throughput geral do treinamento aumenta. Em outras palavras, a disposição física e lógica dos nós no cluster não é detalhe — ela define o quão bem os recursos de hardware são aproveitados.

Como o HyperPod gerencia a topologia automaticamente

Ao criar um cluster, o HyperPod inspeciona os tipos de instâncias presentes em todos os grupos de instâncias, identifica as características de rede e interconexão de cada tipo, e seleciona automaticamente o modelo de topologia mais adequado. O serviço suporta dois modelos principais:

Topologia em árvore (tree topology): indicada para instâncias com interconexões hierárquicas, como ml.p5.48xlarge, ml.p5e.48xlarge e ml.p5en.48xlarge.
Topologia em bloco (block topology): indicada para instâncias com conectividade uniforme de alta largura de banda, como ml.p6e-gb200.NVL72.

Para clusters com tipos de instâncias mistos, o HyperPod seleciona automaticamente uma topologia compatível que funcione de forma coerente em todos os nós.

Adaptação dinâmica ao longo do ciclo de vida do cluster

Um dos pontos mais relevantes dessa novidade é a capacidade de adaptação contínua. À medida que o cluster passa por operações de escalonamento — seja para cima, para baixo ou por substituição de nós — o HyperPod atualiza a configuração de topologia automaticamente, sem necessidade de intervenção manual. Isso garante que a topologia sempre reflita o estado real do cluster, sem exigir atualizações em arquivos de configuração nem reconfigurações do Slurm.

Como começar a usar

Para aproveitar esse recurso, basta criar um cluster SageMaker HyperPod Slurm com os tipos de instâncias GPU suportados. O agendamento com consciência de topologia já vem habilitado por padrão e não requer nenhuma configuração adicional. O recurso está disponível em todas as regiões AWS onde o Amazon SageMaker HyperPod é suportado.

Para mais detalhes sobre o agendamento com consciência de topologia, consulte a documentação oficial do Amazon SageMaker HyperPod.

Fonte

Amazon SageMaker HyperPod now supports automatic Slurm topology management (https://aws.amazon.com/about-aws/whats-new/2026/04/amazon-sagemaker-hyperpod-automatic-slurm-topology/)

Amazon SageMaker HyperPod passa a gerenciar automaticamente a topologia do Slurm

Gerenciamento automático de topologia no SageMaker HyperPod

Por que a topologia de rede importa no treinamento distribuído

Como o HyperPod gerencia a topologia automaticamente

Adaptação dinâmica ao longo do ciclo de vida do cluster

Como começar a usar

Fonte

Comments

Leave a Reply Cancel reply

More posts

Como garantir capacidade de GPU de curto prazo para cargas de ML com EC2 Capacity Blocks e SageMaker Training Plans

AWS conquista certificações SNI 27017, SNI 27018 e SNI 9001 na Região Ásia-Pacífico (Jacarta)

Agentes que transacionam: conheça o Amazon Bedrock AgentCore Payments, desenvolvido com Coinbase e Stripe

Superando desafios de sinal de recompensa: aprendizado por reforço com recompensas verificáveis e GRPO no SageMaker AI