O modelo de IA generativa NVIDIA Nemotron agora está no SageMaker JumpStart
A AWS anunciou a disponibilidade geral do modelo NVIDIA Nemotron 3 Nano 30B, com 3 bilhões de parâmetros ativos, no catálogo de modelos do Amazon SageMaker JumpStart. Essa integração oferece aos desenvolvedores brasileiros a oportunidade de acelerar a inovação e entregar valor comercial concreto com o Nemotron 3 Nano na plataforma AWS, sem a necessidade de gerenciar complexidades de implantação de modelos.
Com as capacidades gerenciadas do SageMaker JumpStart, é possível potencializar aplicações de IA generativa com as capacidades do Nemotron. O modelo é classificado como um pequeno modelo híbrido de mistura de especialistas (Mixture of Experts — MoE), projetado para oferecer a mais alta eficiência computacional e precisão, permitindo que desenvolvedores executem tarefas de agentes altamente especializadas em escala.
Características principais do Nemotron 3 Nano 30B
O que diferencia o Nemotron 3 Nano de outras soluções disponíveis no mercado é sua arquitetura inovadora e desempenho comprovado. O modelo é totalmente aberto, com pesos de código aberto, conjuntos de dados e receitas publicados. Isso permite que desenvolvedores personalizem, otimizem e implantem o modelo em sua própria infraestrutura, atendendo requisitos específicos de privacidade e segurança.
Arquitetura e design
O Nemotron 3 Nano utiliza uma arquitetura híbrida que combina Transformer com Mamba. Uma característica importante é o suporte a orçamento de tokens, que permite alcançar precisão ótima enquanto minimiza a geração de tokens de raciocínio durante a inferência.
Desempenho em benchmarks técnicos
O modelo demonstra excelência em codificação e raciocínio, liderando em diversos benchmarks reconhecidos internacionalmente: SWE Bench Verified, GPQA Diamond, AIME 2025, Arena Hard v2 e IFBench. Em comparação com outros modelos de linguagem abertos com menos de 30 bilhões de parâmetros, o Nemotron se destaca em tarefas de codificação, raciocínio científico, matemática e compreensão de instruções.
Capacidades técnicas
O modelo oferece um contexto de até 1 milhão de tokens, funcionando como modelo de fundação baseado em texto, tanto para entradas quanto saídas. Com 30 bilhões de parâmetros totais, mas apenas 3 bilhões ativados simultaneamente, alcança uma relação impressionante entre capacidade e eficiência computacional.
Como começar com o Nemotron 3 Nano no SageMaker JumpStart
Requisitos iniciais
Para utilizar o Nemotron 3 Nano no Amazon SageMaker JumpStart, é necessário ter um domínio do Amazon SageMaker Studio provisionado.
Processo de implantação
Para testar o modelo, abra o SageMaker Studio e navegue até a seção “Models” no painel de navegação. Digite “NVIDIA” na barra de pesquisa e selecione o “NVIDIA Nemotron 3 Nano 30B”. Na página de detalhes do modelo, escolha “Deploy” e siga as instruções fornecidas para concluir a implantação. Após o modelo estar ativo em um endpoint de SageMaker AI, você poderá testá-lo imediatamente.
Acesso via linha de comando
O modelo pode ser acessado utilizando exemplos da Interface de Linha de Comando da AWS (AWS CLI). Use o identificador de modelo nvidia/nemotron-3-nano para fazer referência ao modelo.
cat > input.json << EOF
{
"model": "${MODEL_ID}",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "What is NVIDIA? Answer in 2-3 sentences."
}
],
"max_tokens": 512,
"temperature": 0.2,
"stream": False,
"chat_template_kwargs": {"enable_thinking": False}
}
EOF
aws sagemaker-runtime invoke-endpoint \
--endpoint-name ${ENDPOINT_NAME} \
--region ${AWS_REGION} \
--content-type 'application/json' \
--body fileb://input.json \
> response.json
Integração com SDK do SageMaker e Boto3
Alternativamente, é possível acessar o modelo usando o SDK do SageMaker e a biblioteca Boto3. O exemplo abaixo em Python demonstra como enviar uma mensagem de texto ao Nemotron 3 Nano 30B através do SageMaker SDK:
runtime_client = boto3.client('sagemaker-runtime', region_name=region)
payload = {
"messages": [
{"role": "user", "content": prompt}
],
"max_tokens": 1000
}
try:
response = self.runtime_client.invoke_endpoint(
EndpointName=self.endpoint_name,
ContentType='application/json',
Body=json.dumps(payload)
)
response_body = response['Body'].read().decode('utf-8')
raw_response = json.loads(response_body)
return self.parse_response(raw_response)
except Exception as e:
raise Exception(
f"Failed to invoke endpoint '{self.endpoint_name}': {str(e)}. "
f"Check that the endpoint is InService and you have least-privileged IAM permissions assigned."
)
Para exemplos adicionais de código, consulte o repositório GitHub da NVIDIA.
Disponibilidade e recursos complementares
O NVIDIA Nemotron 3 Nano agora está totalmente gerenciado no SageMaker JumpStart. Verifique a documentação do pacote de modelo para conhecer a disponibilidade em cada região da AWS. Para aprender mais sobre o serviço, consulte a página do modelo Nemotron Nano, o notebook de exemplo da NVIDIA no GitHub para o Nemotron 3 Nano 30B, e a página de preços do Amazon SageMaker JumpStart.
Desenvolvedores brasileiros que desejarem testar o modelo e compartilhar feedback podem fazê-lo através do AWS re:Post para SageMaker JumpStart ou através dos canais habituais de suporte da AWS.
Fonte
NVIDIA Nemotron 3 Nano 30B MoE model is now available in Amazon SageMaker JumpStart (https://aws.amazon.com/blogs/machine-learning/nvidia-nemotron-3-nano-30b-is-now-available-in-amazon-sagemaker-jumpstart/)
Leave a Reply