NVIDIA Nemotron 3 Ultra já está disponível no Amazon SageMaker JumpStart

Disponibilidade imediata no SageMaker JumpStart

A AWS anunciou a disponibilidade do NVIDIA Nemotron 3 Ultra no Amazon SageMaker JumpStart desde o primeiro dia de lançamento do modelo. Com isso, equipes que trabalham com Inteligência Artificial (IA) agêntica agora podem implantar esse modelo de grande porte com um único clique, sem precisar configurar infraestrutura ou frameworks de serviço manualmente.

O Nemotron 3 Ultra é um modelo de linguagem aberto desenvolvido pela NVIDIA com foco em raciocínio de fronteira e orquestração em agentes autônomos de longa duração. Segundo a AWS, ele entrega inferência 5x mais rápida e até 30% de redução de custos para cargas de trabalho agênticas em relação a modelos densos de qualidade equivalente.

O que é o NVIDIA Nemotron 3 Ultra

O Nemotron 3 Ultra é um Modelo de Linguagem de Grande Escala (LLM) de código aberto com 550 bilhões de parâmetros totais e 55 bilhões de parâmetros ativos. Ele é construído sobre uma arquitetura híbrida Transformer-Mamba de Mistura de Especialistas (MoE), projetada para entregar inteligência de fronteira com uma fração do custo computacional de modelos densos de qualidade equivalente.

A tabela abaixo resume as especificações técnicas do modelo:

  • Arquitetura: Transformer-Mamba MoE híbrido
  • Parâmetros: 550B totais / 55B ativos
  • Comprimento de contexto: Até 1 milhão de tokens
  • Entrada / Saída: Texto para texto
  • Precisão: NVFP4
  • Velocidade de inferência: 5x mais rápido para fluxos de agentes de longa duração
  • Custo: Até 30% menor para tarefas agênticas complexas

O modelo é otimizado para o formato NVFP4, o que o torna significativamente mais rápido e econômico para hospedar.

Imagem original — fonte: Aws

Por que agentes de IA precisam de modelos construídos para isso

Diferente de um chatbot comum que responde uma vez e encerra a interação, agentes de IA planejam, chamam ferramentas, delegam tarefas para sub-agentes, verificam resultados e continuam operando ao longo de centenas de turnos. Cada etapa adiciona tokens e demanda computacional — o que torna as métricas relevantes bem diferentes das de um modelo conversacional simples. O que importa aqui é a conclusão de tarefas com precisão útil, o tempo total para finalizar e o custo por tarefa.

O Nemotron 3 Ultra foi desenvolvido exatamente para esse cenário. Sua arquitetura MoE ativa apenas 55 bilhões dos 550 bilhões de parâmetros a cada passagem direta pelo modelo, mantendo a taxa de transferência elevada mesmo com contextos de até um milhão de tokens. Na prática, isso significa que agentes conseguem sustentar ciclos de planejamento, chamadas de ferramentas e auto-correção ao longo de centenas de turnos, preservando coerência e controlando custos.

Casos de uso empresariais

O Nemotron 3 Ultra se destaca especialmente em cargas de trabalho que exigem raciocínio encadeado e sustentado por múltiplas etapas:

  • Orquestradores de agentes: coordenam múltiplos sub-agentes e gerenciam estado ao longo de longas cadeias de chamadas de ferramentas
  • Agentes de codificação: geram, testam, depuram e iteram sobre código em repositórios de grande porte
  • Pesquisa aprofundada: sintetizam informações de múltiplas fontes e mantêm raciocínio coerente em contextos estendidos
  • Fluxos de trabalho corporativos complexos: automatizam processos de negócio com múltiplas etapas, ramificações de decisão e recuperação de erros

Como implantar no SageMaker JumpStart

O modelo pode ser implantado pelo Amazon SageMaker JumpStart com experiência de um clique, eliminando a necessidade de gerenciar infraestrutura ou configurar frameworks de serviço.

Pré-requisitos

Antes de começar, é necessário ter:

  • Uma conta AWS ativa
  • Permissões adequadas para o SageMaker JumpStart
  • Cota de serviço suficiente para instâncias GPU — por exemplo, ml.p5en.48xlarge, ml.p5.48xlarge ou ml.g7e.48xlarge

Atenção: a implantação desse modelo cria um endpoint no SageMaker que gera cobranças enquanto estiver em execução. Instâncias GPU como a ml.p5en.48xlarge podem custar vários dólares por hora. Consulte a página de preços do Amazon SageMaker AI para detalhes. Lembre-se de excluir o endpoint ao terminar para evitar cobranças contínuas.

Implantação pelo SageMaker Studio

  1. Abra o Amazon SageMaker Studio
  2. No painel de navegação à esquerda, selecione SageMaker JumpStart
  3. Pesquise por Nemotron 3 Ultra
  4. Selecione o cartão do modelo
  5. Clique em Deploy
  6. Selecione o tipo de instância (os tipos suportados são ml.p5en.48xlarge, ml.p5.48xlarge ou ml.g7e.48xlarge)
  7. Revise as configurações de implantação (os padrões são suficientes para a maioria dos casos)
  8. Clique em Deploy para criar o endpoint
  9. Aguarde o status do endpoint mudar para InService antes de prosseguir para a inferência

Implantação pelo SDK Python do SageMaker

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",
    # Verify in SageMaker JumpStart model card
    role=sagemaker.get_execution_role(),
    # Your SageMaker execution role ARN
)

predictor = model.deploy(accept_eula=True)

Executando inferência

payload = {
    "messages": [{
        "role": "user",
        "content": "Break this task into subtasks, identify which tools are needed, and run them in sequence."
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Limpeza do ambiente

Para evitar cobranças desnecessárias, exclua o endpoint do SageMaker ao finalizar:

predictor.delete_endpoint()

Conclusão

O NVIDIA Nemotron 3 Ultra chega ao Amazon SageMaker JumpStart como uma opção de raciocínio de fronteira com inferência 5x mais rápida e até 30% de redução de custos para cargas de trabalho agênticas. Sua arquitetura híbrida Transformer-Mamba MoE e a janela de contexto de um milhão de tokens fazem dele um modelo construído especificamente para o raciocínio sustentado e de múltiplas etapas que agentes em produção exigem — seja para orquestração de agentes, codificação, pesquisa aprofundada ou automação corporativa complexa. O modelo já está disponível para implantação pelo SageMaker JumpStart.

Fonte

NVIDIA Nemotron 3 Ultra now available on Amazon SageMaker JumpStart (https://aws.amazon.com/blogs/machine-learning/nvidia-nemotron-3-ultra-now-available-on-amazon-sagemaker-jumpstart/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *