Modelo NVIDIA Nemotron 3 Nano 30B MoE agora disponível no Amazon SageMaker JumpStart

O modelo de IA generativa NVIDIA Nemotron agora está no SageMaker JumpStart

A AWS anunciou a disponibilidade geral do modelo NVIDIA Nemotron 3 Nano 30B, com 3 bilhões de parâmetros ativos, no catálogo de modelos do Amazon SageMaker JumpStart. Essa integração oferece aos desenvolvedores brasileiros a oportunidade de acelerar a inovação e entregar valor comercial concreto com o Nemotron 3 Nano na plataforma AWS, sem a necessidade de gerenciar complexidades de implantação de modelos.

Com as capacidades gerenciadas do SageMaker JumpStart, é possível potencializar aplicações de IA generativa com as capacidades do Nemotron. O modelo é classificado como um pequeno modelo híbrido de mistura de especialistas (Mixture of Experts — MoE), projetado para oferecer a mais alta eficiência computacional e precisão, permitindo que desenvolvedores executem tarefas de agentes altamente especializadas em escala.

Características principais do Nemotron 3 Nano 30B

O que diferencia o Nemotron 3 Nano de outras soluções disponíveis no mercado é sua arquitetura inovadora e desempenho comprovado. O modelo é totalmente aberto, com pesos de código aberto, conjuntos de dados e receitas publicados. Isso permite que desenvolvedores personalizem, otimizem e implantem o modelo em sua própria infraestrutura, atendendo requisitos específicos de privacidade e segurança.

Arquitetura e design

O Nemotron 3 Nano utiliza uma arquitetura híbrida que combina Transformer com Mamba. Uma característica importante é o suporte a orçamento de tokens, que permite alcançar precisão ótima enquanto minimiza a geração de tokens de raciocínio durante a inferência.

Desempenho em benchmarks técnicos

O modelo demonstra excelência em codificação e raciocínio, liderando em diversos benchmarks reconhecidos internacionalmente: SWE Bench Verified, GPQA Diamond, AIME 2025, Arena Hard v2 e IFBench. Em comparação com outros modelos de linguagem abertos com menos de 30 bilhões de parâmetros, o Nemotron se destaca em tarefas de codificação, raciocínio científico, matemática e compreensão de instruções.

Capacidades técnicas

O modelo oferece um contexto de até 1 milhão de tokens, funcionando como modelo de fundação baseado em texto, tanto para entradas quanto saídas. Com 30 bilhões de parâmetros totais, mas apenas 3 bilhões ativados simultaneamente, alcança uma relação impressionante entre capacidade e eficiência computacional.

Como começar com o Nemotron 3 Nano no SageMaker JumpStart

Requisitos iniciais

Para utilizar o Nemotron 3 Nano no Amazon SageMaker JumpStart, é necessário ter um domínio do Amazon SageMaker Studio provisionado.

Processo de implantação

Para testar o modelo, abra o SageMaker Studio e navegue até a seção “Models” no painel de navegação. Digite “NVIDIA” na barra de pesquisa e selecione o “NVIDIA Nemotron 3 Nano 30B”. Na página de detalhes do modelo, escolha “Deploy” e siga as instruções fornecidas para concluir a implantação. Após o modelo estar ativo em um endpoint de SageMaker AI, você poderá testá-lo imediatamente.

Acesso via linha de comando

O modelo pode ser acessado utilizando exemplos da Interface de Linha de Comando da AWS (AWS CLI). Use o identificador de modelo nvidia/nemotron-3-nano para fazer referência ao modelo.

cat > input.json << EOF
{
  "model": "${MODEL_ID}",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": "What is NVIDIA? Answer in 2-3 sentences."
    }
  ],
  "max_tokens": 512,
  "temperature": 0.2,
  "stream": False,
  "chat_template_kwargs": {"enable_thinking": False}
}
EOF

aws sagemaker-runtime invoke-endpoint \
  --endpoint-name ${ENDPOINT_NAME} \
  --region ${AWS_REGION} \
  --content-type 'application/json' \
  --body fileb://input.json \
  > response.json

Integração com SDK do SageMaker e Boto3

Alternativamente, é possível acessar o modelo usando o SDK do SageMaker e a biblioteca Boto3. O exemplo abaixo em Python demonstra como enviar uma mensagem de texto ao Nemotron 3 Nano 30B através do SageMaker SDK:

runtime_client = boto3.client('sagemaker-runtime', region_name=region)

payload = {
  "messages": [
    {"role": "user", "content": prompt}
  ],
  "max_tokens": 1000
}

try:
  response = self.runtime_client.invoke_endpoint(
    EndpointName=self.endpoint_name,
    ContentType='application/json',
    Body=json.dumps(payload)
  )
  response_body = response['Body'].read().decode('utf-8')
  raw_response = json.loads(response_body)
  return self.parse_response(raw_response)
except Exception as e:
  raise Exception(
    f"Failed to invoke endpoint '{self.endpoint_name}': {str(e)}. "
    f"Check that the endpoint is InService and you have least-privileged IAM permissions assigned."
  )

Para exemplos adicionais de código, consulte o repositório GitHub da NVIDIA.

Disponibilidade e recursos complementares

O NVIDIA Nemotron 3 Nano agora está totalmente gerenciado no SageMaker JumpStart. Verifique a documentação do pacote de modelo para conhecer a disponibilidade em cada região da AWS. Para aprender mais sobre o serviço, consulte a página do modelo Nemotron Nano, o notebook de exemplo da NVIDIA no GitHub para o Nemotron 3 Nano 30B, e a página de preços do Amazon SageMaker JumpStart.

Desenvolvedores brasileiros que desejarem testar o modelo e compartilhar feedback podem fazê-lo através do AWS re:Post para SageMaker JumpStart ou através dos canais habituais de suporte da AWS.

Fonte

NVIDIA Nemotron 3 Nano 30B MoE model is now available in Amazon SageMaker JumpStart (https://aws.amazon.com/blogs/machine-learning/nvidia-nemotron-3-nano-30b-is-now-available-in-amazon-sagemaker-jumpstart/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *