Apresentação do Nemotron 3 Super no Amazon Bedrock
O modelo NVIDIA Nemotron 3 Super está oficialmente disponível como um serviço completamente gerenciado e serverless no Amazon Bedrock, integrando-se aos modelos Nemotron Nano que já operavam nesse ambiente. Essa integração oferece aos desenvolvedores a possibilidade de potencializar suas aplicações de IA generativa com Nemotron, aproveitando a inferência totalmente gerenciada fornecida pelo Bedrock, sem as complexidades associadas ao gerenciamento de infraestrutura.
A disponibilidade deste modelo representa um avanço significativo para organizações que buscam construir sistemas agentos sofisticados e aplicações que demandem raciocínio de alto nível. Ao combinar o Nemotron 3 Super com a plataforma Bedrock, empresas podem acelerar inovação e entregar valor tangível de negócio, mantendo a simplicidade operacional.
Características Técnicas do Nemotron 3 Super
Arquitetura e Especialização
O Nemotron 3 Super é um modelo híbrido de Mistura de Especialistas (MoE — Mixture of Experts) projetado com eficiência computacional líder de sua categoria e precisão elevada para aplicações multi-agentes e sistemas especializados de IA agentos. A NVIDIA liberou o modelo com pesos abertos, conjuntos de dados e receitas, permitindo que desenvolvedores customizem, melhorem e implantem o modelo em suas próprias infraestruturas quando necessário, garantindo maior privacidade e segurança.
Arquitetura: O modelo utiliza MoE com uma arquitetura híbrida Transformer-Mamba, incorporando orçamento de tokens para entregar precisão aprimorada com geração mínima de tokens de raciocínio.
Precisão: O Nemotron 3 Super alcança a maior eficiência de throughput em sua categoria de tamanho, com ganhos de até 5 vezes em relação à versão anterior do Nemotron Super. Para tarefas de raciocínio e IA agentos, demonstra precisão líder entre modelos abertos disponíveis, superando a versão anterior em até 2 vezes. O modelo mantém alta precisão em diversos benchmarks reconhecidos, incluindo AIME 2025, Terminal-Bench, SWE Bench verificado e multilíngue, além do RULER.
Treinamento multi-ambiental: O treinamento com reforço em múltiplos ambientes proporcionou ao modelo precisão líder em mais de 10 ambientes utilizando NVIDIA NeMo.
Especificações de Tamanho e Contexto
O modelo possui 120 bilhões de parâmetros totais, com apenas 12 bilhões de parâmetros ativos durante a inferência. Sua janela de contexto alcança até 256 mil tokens, permitindo o processamento de sequências muito longas. Aceita entrada em formato textual e produz saídas textuais, com suporte para diversos idiomas: inglês, francês, alemão, italiano, japonês, espanhol e chinês.
Otimizações para Desempenho
MoE latente: O Nemotron 3 Super emprega uma abordagem de MoE latente, onde especialistas operam sobre uma representação latente compartilhada antes da projeção de saídas de volta ao espaço de tokens. Essa estratégia permite que o modelo ative 4 vezes mais especialistas com o mesmo custo de inferência, possibilitando melhor especialização em estruturas semânticas sutis, abstrações de domínio ou padrões de raciocínio multi-hop.
Predição de múltiplos tokens: A capacidade de predição de múltiplos tokens (MTP) permite ao modelo prever vários tokens futuros em um único passe direto, ampliando significativamente o throughput para sequências longas de raciocínio e saídas estruturadas. Para planejamento, geração de trajetórias, raciocínio em cadeia estendido ou geração de código, o MTP reduz latência e melhora a responsividade dos agentes.
Para aprofundar-se na arquitetura e metodologia de treinamento do Nemotron 3 Super, consulte o artigo de apresentação completo: Introducing Nemotron 3 Super: an Open Hybrid Mamba Transformer MoE for Agentic Reasoning.
Casos de Uso do NVIDIA Nemotron 3 Super
O Nemotron 3 Super viabiliza diversos cenários de aplicação em diferentes segmentos industriais:
- Desenvolvimento de Software: Assistência em tarefas como resumo de código e análise de complexidade.
- Finanças: Aceleração de processamento de empréstimos através de extração de dados, análise de padrões de renda e detecção de operações fraudulentas, reduzindo ciclos operacionais e riscos associados.
- Segurança Cibernética: Triagem de incidentes, análise aprofundada de malware e busca proativa de ameaças de segurança.
- Busca: Compreensão da intenção do usuário para ativar os agentes apropriados.
- Varejo: Otimização de gerenciamento de inventário e aprimoramento de serviço em loja com recomendações de produtos personalizadas em tempo real.
- Fluxos de Trabalho Multi-Agentes: Orquestração de agentes específicos para tarefas — planejamento, uso de ferramentas, verificação e execução de domínio — para automatizar processos de negócio complexos e ponta a ponta.
Primeiros Passos com o Nemotron 3 Super
Testando via Console
Para experimentar o NVIDIA Nemotron 3 Super no Amazon Bedrock, siga os passos abaixo:
- Acesse a console do Amazon Bedrock e selecione “Chat/Text playground” no menu à esquerda, sob a seção “Test”.
- Clique em “Select model” no canto superior esquerdo da área de teste.
- Na lista de categorias, escolha “NVIDIA” e então selecione “NVIDIA Nemotron 3 Super”.
- Clique em “Apply” para carregar o modelo.
Após completar esses passos, você terá acesso imediato ao modelo para experimentação. Para demonstrar todo o potencial do Nemotron 3 Super, é possível apresentar-lhe desafios de engenharia complexos que exigem raciocínio sistêmico. Modelos com capacidades avançadas de raciocínio se destacam em “pensamento em nível de sistema”, onde precisam equilibrar trade-offs arquiteturais, lidar com concorrência e gerenciar estado distribuído.
Um exemplo prático seria solicitar ao modelo que projete um serviço de limitação de taxa distribuído globalmente: “Design a distributed rate-limiting service in Python that must support 100,000 requests per second across multiple geographic regions. 1. Provide a high-level architectural strategy (e.g., Token Bucket vs. Fixed Window) and justify your choice for a global scale. 2. Write a thread-safe implementation using Redis as the backing store. 3. Address the ‘race condition’ problem when multiple instances update the same counter. 4. Include a pytest suite that simulates network latency between the app and Redis.”
Esse tipo de solicitação requer que o modelo funcione como um engenheiro sênior de sistemas distribuídos — raciocinando sobre trade-offs, produzindo código thread-safe, antecipando modos de falha e validando tudo com testes realistas, tudo em uma resposta coerente e única.
Acesso Programático via CLI e SDKs
O modelo pode ser acessado programaticamente através da API usando o identificador nvidia.nemotron-super-3-120b. O Nemotron 3 Super suporta tanto as APIs InvokeModel quanto Converse através da Interface de Linha de Comando da AWS (AWS CLI) e SDKs da AWS, com o mesmo identificador de modelo. Adicionalmente, o modelo é compatível com a API OpenAI do Amazon Bedrock.
Invocação via AWS CLI
Para invocar o modelo diretamente do terminal usando a Interface de Linha de Comando da AWS (AWS CLI) e a API InvokeModel, execute o comando abaixo:
aws bedrock-runtime invoke-model \
--model-id nvidia.nemotron-super-3-120b \
--region us-west-2 \
--body '{"messages": [{"role": "user", "content": "Type_Your_Prompt_Here"}], "max_tokens": 512, "temperature": 0.5, "top_p": 0.9}' \
--cli-binary-format raw-in-base64-out \
invoke-model-output.txt
Invocação via AWS SDK para Python (Boto3)
Para invocar o modelo através do AWS SDK para Python (Boto3), utilizando a API Converse, utilize o seguinte script para enviar um prompt ao modelo:
import boto3
from botocore.exceptions import ClientError
# Create a Bedrock Runtime client in the AWS Region you want to use.
client = boto3.client("bedrock-runtime", region_name="us-west-2")
# Set the model ID
model_id = "nvidia.nemotron-super-3-120b"
# Start a conversation with the user message.
user_message = "Type_Your_Prompt_Here"
conversation = [
{
"role": "user",
"content": [{"text": user_message}],
}
]
try:
# Send the message to the model using a basic inference configuration.
response = client.converse(
modelId=model_id,
messages=conversation,
inferenceConfig={"maxTokens": 512, "temperature": 0.5, "topP": 0.9},
)
# Extract and print the response text.
response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)
except (ClientError, Exception) as e:
print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}")
exit(1)
Invocação via OpenAI SDK
Para invocar o modelo através do endpoint compatível com OpenAI do Amazon Bedrock utilizando o SDK OpenAI, proceda conforme indicado abaixo:
# Import OpenAI SDK
from openai import OpenAI
# Set environment variables
os.environ["OPENAI_API_KEY"] = ""
os.environ["OPENAI_BASE_URL"] = "https://bedrock-runtime..amazon.com/openai/v1"
# Set the model ID
model_id = "nvidia.nemotron-super-3-120b"
# Set prompts
system_prompt = "Type_Your_System_Prompt_Here"
user_message = "Type_Your_User_Prompt_Here"
# Use ChatCompletionsAPI
response = client.chat.completions.create(
model=model_id,
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_message}
],
temperature=0,
max_completion_tokens=1000
)
# Extract and print the response text
print(response.choices[0].message.content)
Próximos Passos
O NVIDIA Nemotron 3 Super no Amazon Bedrock abre possibilidades significativas para organizações que desejam construir a próxima geração de aplicações agentos com IA. Ao unir a arquitetura avançada do Nemotron 3 Super — com seu modelo MoE híbrido Transformer-Mamba e MoE latente — à infraestrutura completamente gerenciada e serverless do Bedrock, as organizações conseguem implantar aplicações sofisticadas com raciocínio elevado em escala, sem a sobrecarga de gerenciamento de backend.
Está pronto para explorar as possibilidades? Experimente agora: acesse a Console do Amazon Bedrock para testar o NVIDIA Nemotron 3 Super no playground de modelos. Para integração programática, explore o SDK da AWS e incorpore o Nemotron 3 Super em seus pipelines existentes de IA generativa.
Fonte
Run NVIDIA Nemotron 3 Super on Amazon Bedrock (https://aws.amazon.com/blogs/machine-learning/run-nvidia-nemotron-3-super-on-amazon-bedrock/)
Leave a Reply