Gerenciamento automático de topologia no SageMaker HyperPod
A AWS anunciou uma melhoria significativa no Amazon SageMaker HyperPod: o serviço agora seleciona e mantém automaticamente a configuração ideal de topologia de rede para clusters Slurm, levando em conta os tipos de instâncias GPU presentes no cluster.
Por que a topologia de rede importa no treinamento distribuído
A topologia de rede tem impacto direto na performance do treinamento distribuído. Quando os jobs são alocados em nós que estão topologicamente próximos uns dos outros, a comunicação entre GPUs se torna mais rápida, as operações coletivas do NCCL ficam mais eficientes e o throughput geral do treinamento aumenta. Em outras palavras, a disposição física e lógica dos nós no cluster não é detalhe — ela define o quão bem os recursos de hardware são aproveitados.
Como o HyperPod gerencia a topologia automaticamente
Ao criar um cluster, o HyperPod inspeciona os tipos de instâncias presentes em todos os grupos de instâncias, identifica as características de rede e interconexão de cada tipo, e seleciona automaticamente o modelo de topologia mais adequado. O serviço suporta dois modelos principais:
- Topologia em árvore (tree topology): indicada para instâncias com interconexões hierárquicas, como
ml.p5.48xlarge,ml.p5e.48xlargeeml.p5en.48xlarge. - Topologia em bloco (block topology): indicada para instâncias com conectividade uniforme de alta largura de banda, como
ml.p6e-gb200.NVL72.
Para clusters com tipos de instâncias mistos, o HyperPod seleciona automaticamente uma topologia compatível que funcione de forma coerente em todos os nós.
Adaptação dinâmica ao longo do ciclo de vida do cluster
Um dos pontos mais relevantes dessa novidade é a capacidade de adaptação contínua. À medida que o cluster passa por operações de escalonamento — seja para cima, para baixo ou por substituição de nós — o HyperPod atualiza a configuração de topologia automaticamente, sem necessidade de intervenção manual. Isso garante que a topologia sempre reflita o estado real do cluster, sem exigir atualizações em arquivos de configuração nem reconfigurações do Slurm.
Como começar a usar
Para aproveitar esse recurso, basta criar um cluster SageMaker HyperPod Slurm com os tipos de instâncias GPU suportados. O agendamento com consciência de topologia já vem habilitado por padrão e não requer nenhuma configuração adicional. O recurso está disponível em todas as regiões AWS onde o Amazon SageMaker HyperPod é suportado.
Para mais detalhes sobre o agendamento com consciência de topologia, consulte a documentação oficial do Amazon SageMaker HyperPod.
Fonte
Amazon SageMaker HyperPod now supports automatic Slurm topology management (https://aws.amazon.com/about-aws/whats-new/2026/04/amazon-sagemaker-hyperpod-automatic-slurm-topology/)
Leave a Reply