NVIDIA Nemotron 3 Super agora está disponível no Amazon Bedrock

Apresentação do Nemotron 3 Super no Amazon Bedrock

O modelo NVIDIA Nemotron 3 Super está oficialmente disponível como um serviço completamente gerenciado e serverless no Amazon Bedrock, integrando-se aos modelos Nemotron Nano que já operavam nesse ambiente. Essa integração oferece aos desenvolvedores a possibilidade de potencializar suas aplicações de IA generativa com Nemotron, aproveitando a inferência totalmente gerenciada fornecida pelo Bedrock, sem as complexidades associadas ao gerenciamento de infraestrutura.

A disponibilidade deste modelo representa um avanço significativo para organizações que buscam construir sistemas agentos sofisticados e aplicações que demandem raciocínio de alto nível. Ao combinar o Nemotron 3 Super com a plataforma Bedrock, empresas podem acelerar inovação e entregar valor tangível de negócio, mantendo a simplicidade operacional.

Características Técnicas do Nemotron 3 Super

Arquitetura e Especialização

O Nemotron 3 Super é um modelo híbrido de Mistura de Especialistas (MoE — Mixture of Experts) projetado com eficiência computacional líder de sua categoria e precisão elevada para aplicações multi-agentes e sistemas especializados de IA agentos. A NVIDIA liberou o modelo com pesos abertos, conjuntos de dados e receitas, permitindo que desenvolvedores customizem, melhorem e implantem o modelo em suas próprias infraestruturas quando necessário, garantindo maior privacidade e segurança.

Arquitetura: O modelo utiliza MoE com uma arquitetura híbrida Transformer-Mamba, incorporando orçamento de tokens para entregar precisão aprimorada com geração mínima de tokens de raciocínio.

Precisão: O Nemotron 3 Super alcança a maior eficiência de throughput em sua categoria de tamanho, com ganhos de até 5 vezes em relação à versão anterior do Nemotron Super. Para tarefas de raciocínio e IA agentos, demonstra precisão líder entre modelos abertos disponíveis, superando a versão anterior em até 2 vezes. O modelo mantém alta precisão em diversos benchmarks reconhecidos, incluindo AIME 2025, Terminal-Bench, SWE Bench verificado e multilíngue, além do RULER.

Treinamento multi-ambiental: O treinamento com reforço em múltiplos ambientes proporcionou ao modelo precisão líder em mais de 10 ambientes utilizando NVIDIA NeMo.

Especificações de Tamanho e Contexto

O modelo possui 120 bilhões de parâmetros totais, com apenas 12 bilhões de parâmetros ativos durante a inferência. Sua janela de contexto alcança até 256 mil tokens, permitindo o processamento de sequências muito longas. Aceita entrada em formato textual e produz saídas textuais, com suporte para diversos idiomas: inglês, francês, alemão, italiano, japonês, espanhol e chinês.

Otimizações para Desempenho

MoE latente: O Nemotron 3 Super emprega uma abordagem de MoE latente, onde especialistas operam sobre uma representação latente compartilhada antes da projeção de saídas de volta ao espaço de tokens. Essa estratégia permite que o modelo ative 4 vezes mais especialistas com o mesmo custo de inferência, possibilitando melhor especialização em estruturas semânticas sutis, abstrações de domínio ou padrões de raciocínio multi-hop.

Predição de múltiplos tokens: A capacidade de predição de múltiplos tokens (MTP) permite ao modelo prever vários tokens futuros em um único passe direto, ampliando significativamente o throughput para sequências longas de raciocínio e saídas estruturadas. Para planejamento, geração de trajetórias, raciocínio em cadeia estendido ou geração de código, o MTP reduz latência e melhora a responsividade dos agentes.

Para aprofundar-se na arquitetura e metodologia de treinamento do Nemotron 3 Super, consulte o artigo de apresentação completo: Introducing Nemotron 3 Super: an Open Hybrid Mamba Transformer MoE for Agentic Reasoning.

Casos de Uso do NVIDIA Nemotron 3 Super

O Nemotron 3 Super viabiliza diversos cenários de aplicação em diferentes segmentos industriais:

Desenvolvimento de Software: Assistência em tarefas como resumo de código e análise de complexidade.
Finanças: Aceleração de processamento de empréstimos através de extração de dados, análise de padrões de renda e detecção de operações fraudulentas, reduzindo ciclos operacionais e riscos associados.
Segurança Cibernética: Triagem de incidentes, análise aprofundada de malware e busca proativa de ameaças de segurança.
Busca: Compreensão da intenção do usuário para ativar os agentes apropriados.
Varejo: Otimização de gerenciamento de inventário e aprimoramento de serviço em loja com recomendações de produtos personalizadas em tempo real.
Fluxos de Trabalho Multi-Agentes: Orquestração de agentes específicos para tarefas — planejamento, uso de ferramentas, verificação e execução de domínio — para automatizar processos de negócio complexos e ponta a ponta.

Primeiros Passos com o Nemotron 3 Super

Testando via Console

Para experimentar o NVIDIA Nemotron 3 Super no Amazon Bedrock, siga os passos abaixo:

Acesse a console do Amazon Bedrock e selecione “Chat/Text playground” no menu à esquerda, sob a seção “Test”.
Clique em “Select model” no canto superior esquerdo da área de teste.
Na lista de categorias, escolha “NVIDIA” e então selecione “NVIDIA Nemotron 3 Super”.
Clique em “Apply” para carregar o modelo.

Após completar esses passos, você terá acesso imediato ao modelo para experimentação. Para demonstrar todo o potencial do Nemotron 3 Super, é possível apresentar-lhe desafios de engenharia complexos que exigem raciocínio sistêmico. Modelos com capacidades avançadas de raciocínio se destacam em “pensamento em nível de sistema”, onde precisam equilibrar trade-offs arquiteturais, lidar com concorrência e gerenciar estado distribuído.

Um exemplo prático seria solicitar ao modelo que projete um serviço de limitação de taxa distribuído globalmente: “Design a distributed rate-limiting service in Python that must support 100,000 requests per second across multiple geographic regions. 1. Provide a high-level architectural strategy (e.g., Token Bucket vs. Fixed Window) and justify your choice for a global scale. 2. Write a thread-safe implementation using Redis as the backing store. 3. Address the ‘race condition’ problem when multiple instances update the same counter. 4. Include a pytest suite that simulates network latency between the app and Redis.”

Esse tipo de solicitação requer que o modelo funcione como um engenheiro sênior de sistemas distribuídos — raciocinando sobre trade-offs, produzindo código thread-safe, antecipando modos de falha e validando tudo com testes realistas, tudo em uma resposta coerente e única.

Acesso Programático via CLI e SDKs

O modelo pode ser acessado programaticamente através da API usando o identificador nvidia.nemotron-super-3-120b. O Nemotron 3 Super suporta tanto as APIs InvokeModel quanto Converse através da Interface de Linha de Comando da AWS (AWS CLI) e SDKs da AWS, com o mesmo identificador de modelo. Adicionalmente, o modelo é compatível com a API OpenAI do Amazon Bedrock.

Invocação via AWS CLI

Para invocar o modelo diretamente do terminal usando a Interface de Linha de Comando da AWS (AWS CLI) e a API InvokeModel, execute o comando abaixo:

aws bedrock-runtime invoke-model \
  --model-id nvidia.nemotron-super-3-120b \
  --region us-west-2 \
  --body '{"messages": [{"role": "user", "content": "Type_Your_Prompt_Here"}], "max_tokens": 512, "temperature": 0.5, "top_p": 0.9}' \
  --cli-binary-format raw-in-base64-out \
  invoke-model-output.txt

Invocação via AWS SDK para Python (Boto3)

Para invocar o modelo através do AWS SDK para Python (Boto3), utilizando a API Converse, utilize o seguinte script para enviar um prompt ao modelo:

import boto3
from botocore.exceptions import ClientError

# Create a Bedrock Runtime client in the AWS Region you want to use.
client = boto3.client("bedrock-runtime", region_name="us-west-2")

# Set the model ID
model_id = "nvidia.nemotron-super-3-120b"

# Start a conversation with the user message.
user_message = "Type_Your_Prompt_Here"
conversation = [
    {
        "role": "user",
        "content": [{"text": user_message}],
    }
]

try:
    # Send the message to the model using a basic inference configuration.
    response = client.converse(
        modelId=model_id,
        messages=conversation,
        inferenceConfig={"maxTokens": 512, "temperature": 0.5, "topP": 0.9},
    )
    # Extract and print the response text.
    response_text = response["output"]["message"]["content"][0]["text"]
    print(response_text)
except (ClientError, Exception) as e:
    print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}")
    exit(1)

Invocação via OpenAI SDK

Para invocar o modelo através do endpoint compatível com OpenAI do Amazon Bedrock utilizando o SDK OpenAI, proceda conforme indicado abaixo:

# Import OpenAI SDK
from openai import OpenAI

# Set environment variables
os.environ["OPENAI_API_KEY"] = ""
os.environ["OPENAI_BASE_URL"] = "https://bedrock-runtime..amazon.com/openai/v1"

# Set the model ID
model_id = "nvidia.nemotron-super-3-120b"

# Set prompts
system_prompt = "Type_Your_System_Prompt_Here"
user_message = "Type_Your_User_Prompt_Here"

# Use ChatCompletionsAPI
response = client.chat.completions.create(
    model=model_id,
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_message}
    ],
    temperature=0,
    max_completion_tokens=1000
)

# Extract and print the response text
print(response.choices[0].message.content)

Próximos Passos

O NVIDIA Nemotron 3 Super no Amazon Bedrock abre possibilidades significativas para organizações que desejam construir a próxima geração de aplicações agentos com IA. Ao unir a arquitetura avançada do Nemotron 3 Super — com seu modelo MoE híbrido Transformer-Mamba e MoE latente — à infraestrutura completamente gerenciada e serverless do Bedrock, as organizações conseguem implantar aplicações sofisticadas com raciocínio elevado em escala, sem a sobrecarga de gerenciamento de backend.

Está pronto para explorar as possibilidades? Experimente agora: acesse a Console do Amazon Bedrock para testar o NVIDIA Nemotron 3 Super no playground de modelos. Para integração programática, explore o SDK da AWS e incorpore o Nemotron 3 Super em seus pipelines existentes de IA generativa.

Fonte

Run NVIDIA Nemotron 3 Super on Amazon Bedrock (https://aws.amazon.com/blogs/machine-learning/run-nvidia-nemotron-3-super-on-amazon-bedrock/)

NVIDIA Nemotron 3 Super agora está disponível no Amazon Bedrock

Apresentação do Nemotron 3 Super no Amazon Bedrock

Características Técnicas do Nemotron 3 Super

Arquitetura e Especialização

Especificações de Tamanho e Contexto

Otimizações para Desempenho

Casos de Uso do NVIDIA Nemotron 3 Super

Primeiros Passos com o Nemotron 3 Super

Testando via Console

Acesso Programático via CLI e SDKs

Invocação via AWS CLI

Invocação via AWS SDK para Python (Boto3)

Invocação via OpenAI SDK

Próximos Passos

Fonte

Comments

Leave a Reply Cancel reply

More posts

Como garantir capacidade de GPU de curto prazo para cargas de ML com EC2 Capacity Blocks e SageMaker Training Plans

AWS conquista certificações SNI 27017, SNI 27018 e SNI 9001 na Região Ásia-Pacífico (Jacarta)

Agentes que transacionam: conheça o Amazon Bedrock AgentCore Payments, desenvolvido com Coinbase e Stripe

Superando desafios de sinal de recompensa: aprendizado por reforço com recompensas verificáveis e GRPO no SageMaker AI