NVIDIA Nemotron 3 Ultra já está disponível no Amazon SageMaker JumpStart

Disponibilidade imediata no SageMaker JumpStart

A AWS anunciou a disponibilidade do NVIDIA Nemotron 3 Ultra no Amazon SageMaker JumpStart desde o primeiro dia de lançamento do modelo. Com isso, equipes que trabalham com Inteligência Artificial (IA) agêntica agora podem implantar esse modelo de grande porte com um único clique, sem precisar configurar infraestrutura ou frameworks de serviço manualmente.

O Nemotron 3 Ultra é um modelo de linguagem aberto desenvolvido pela NVIDIA com foco em raciocínio de fronteira e orquestração em agentes autônomos de longa duração. Segundo a AWS, ele entrega inferência 5x mais rápida e até 30% de redução de custos para cargas de trabalho agênticas em relação a modelos densos de qualidade equivalente.

O que é o NVIDIA Nemotron 3 Ultra

O Nemotron 3 Ultra é um Modelo de Linguagem de Grande Escala (LLM) de código aberto com 550 bilhões de parâmetros totais e 55 bilhões de parâmetros ativos. Ele é construído sobre uma arquitetura híbrida Transformer-Mamba de Mistura de Especialistas (MoE), projetada para entregar inteligência de fronteira com uma fração do custo computacional de modelos densos de qualidade equivalente.

A tabela abaixo resume as especificações técnicas do modelo:

Arquitetura: Transformer-Mamba MoE híbrido
Parâmetros: 550B totais / 55B ativos
Comprimento de contexto: Até 1 milhão de tokens
Entrada / Saída: Texto para texto
Precisão: NVFP4
Velocidade de inferência: 5x mais rápido para fluxos de agentes de longa duração
Custo: Até 30% menor para tarefas agênticas complexas

O modelo é otimizado para o formato NVFP4, o que o torna significativamente mais rápido e econômico para hospedar.

Por que agentes de IA precisam de modelos construídos para isso

Diferente de um chatbot comum que responde uma vez e encerra a interação, agentes de IA planejam, chamam ferramentas, delegam tarefas para sub-agentes, verificam resultados e continuam operando ao longo de centenas de turnos. Cada etapa adiciona tokens e demanda computacional — o que torna as métricas relevantes bem diferentes das de um modelo conversacional simples. O que importa aqui é a conclusão de tarefas com precisão útil, o tempo total para finalizar e o custo por tarefa.

O Nemotron 3 Ultra foi desenvolvido exatamente para esse cenário. Sua arquitetura MoE ativa apenas 55 bilhões dos 550 bilhões de parâmetros a cada passagem direta pelo modelo, mantendo a taxa de transferência elevada mesmo com contextos de até um milhão de tokens. Na prática, isso significa que agentes conseguem sustentar ciclos de planejamento, chamadas de ferramentas e auto-correção ao longo de centenas de turnos, preservando coerência e controlando custos.

Casos de uso empresariais

O Nemotron 3 Ultra se destaca especialmente em cargas de trabalho que exigem raciocínio encadeado e sustentado por múltiplas etapas:

Orquestradores de agentes: coordenam múltiplos sub-agentes e gerenciam estado ao longo de longas cadeias de chamadas de ferramentas
Agentes de codificação: geram, testam, depuram e iteram sobre código em repositórios de grande porte
Pesquisa aprofundada: sintetizam informações de múltiplas fontes e mantêm raciocínio coerente em contextos estendidos
Fluxos de trabalho corporativos complexos: automatizam processos de negócio com múltiplas etapas, ramificações de decisão e recuperação de erros

Como implantar no SageMaker JumpStart

O modelo pode ser implantado pelo Amazon SageMaker JumpStart com experiência de um clique, eliminando a necessidade de gerenciar infraestrutura ou configurar frameworks de serviço.

Pré-requisitos

Antes de começar, é necessário ter:

Uma conta AWS ativa
Permissões adequadas para o SageMaker JumpStart
Cota de serviço suficiente para instâncias GPU — por exemplo, ml.p5en.48xlarge, ml.p5.48xlarge ou ml.g7e.48xlarge

Atenção: a implantação desse modelo cria um endpoint no SageMaker que gera cobranças enquanto estiver em execução. Instâncias GPU como a ml.p5en.48xlarge podem custar vários dólares por hora. Consulte a página de preços do Amazon SageMaker AI para detalhes. Lembre-se de excluir o endpoint ao terminar para evitar cobranças contínuas.

Implantação pelo SageMaker Studio

Abra o Amazon SageMaker Studio
No painel de navegação à esquerda, selecione SageMaker JumpStart
Pesquise por Nemotron 3 Ultra
Selecione o cartão do modelo
Clique em Deploy
Selecione o tipo de instância (os tipos suportados são ml.p5en.48xlarge, ml.p5.48xlarge ou ml.g7e.48xlarge)
Revise as configurações de implantação (os padrões são suficientes para a maioria dos casos)
Clique em Deploy para criar o endpoint
Aguarde o status do endpoint mudar para InService antes de prosseguir para a inferência

Implantação pelo SDK Python do SageMaker

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",
    # Verify in SageMaker JumpStart model card
    role=sagemaker.get_execution_role(),
    # Your SageMaker execution role ARN
)

predictor = model.deploy(accept_eula=True)

Executando inferência

payload = {
    "messages": [{
        "role": "user",
        "content": "Break this task into subtasks, identify which tools are needed, and run them in sequence."
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Limpeza do ambiente

Para evitar cobranças desnecessárias, exclua o endpoint do SageMaker ao finalizar:

predictor.delete_endpoint()

Conclusão

O NVIDIA Nemotron 3 Ultra chega ao Amazon SageMaker JumpStart como uma opção de raciocínio de fronteira com inferência 5x mais rápida e até 30% de redução de custos para cargas de trabalho agênticas. Sua arquitetura híbrida Transformer-Mamba MoE e a janela de contexto de um milhão de tokens fazem dele um modelo construído especificamente para o raciocínio sustentado e de múltiplas etapas que agentes em produção exigem — seja para orquestração de agentes, codificação, pesquisa aprofundada ou automação corporativa complexa. O modelo já está disponível para implantação pelo SageMaker JumpStart.

Fonte

NVIDIA Nemotron 3 Ultra now available on Amazon SageMaker JumpStart (https://aws.amazon.com/blogs/machine-learning/nvidia-nemotron-3-ultra-now-available-on-amazon-sagemaker-jumpstart/)

NVIDIA Nemotron 3 Ultra já está disponível no Amazon SageMaker JumpStart

Disponibilidade imediata no SageMaker JumpStart

O que é o NVIDIA Nemotron 3 Ultra

Por que agentes de IA precisam de modelos construídos para isso

Casos de uso empresariais

Como implantar no SageMaker JumpStart

Pré-requisitos

Implantação pelo SageMaker Studio

Implantação pelo SDK Python do SageMaker

Executando inferência

Limpeza do ambiente

Conclusão

Fonte

Comments

Leave a Reply Cancel reply

More posts

Amazon EKS Capabilities agora suporta CloudWatch Vended Logs

Amazon Cognito ganha novas capacidades com infraestrutura de nova geração

Visibilidade total em ataques DDoS com flow logs no AWS Shield Advanced

Amazon SageMaker Data Agent agora integra contexto de negócio nas conversas