NVIDIA Nemotron 3 Nano Omni já está disponível no Amazon SageMaker JumpStart

O que é o NVIDIA Nemotron 3 Nano Omni?

A NVIDIA disponibilizou o modelo Nemotron 3 Nano Omni no Amazon SageMaker JumpStart com disponibilidade imediata desde o dia zero do lançamento. Trata-se de um Modelo de Linguagem Grande (LLM) multimodal aberto, com 30 bilhões de parâmetros totais e 3 bilhões de parâmetros ativos — uma configuração chamada de 30B A3B.

O modelo é construído sobre uma arquitetura híbrida chamada Mamba2 Transformer com Mistura de Especialistas (MoE), que combina três componentes principais:

Nemotron 3 Nano LLM — a espinha dorsal de linguagem
CRADIO v4-H — o encoder de visão para imagens e vídeos
Parakeet — o encoder de fala para transcrição e compreensão de áudio

Essa arquitetura unificada aceita vídeo, áudio, imagens e texto como entrada e gera texto como saída. O modelo suporta um contexto de 131 mil tokens, raciocínio em cadeia de pensamento, chamada de ferramentas, saída em JSON e timestamps em nível de palavra para tarefas de transcrição. No SageMaker JumpStart, ele está disponível em precisão FP8, equilibrando acurácia e eficiência para cargas de trabalho empresariais. A licença é a NVIDIA Open Model Agreement, permitindo uso comercial.

Por que um modelo multimodal unificado importa?

Fluxos de trabalho de agentes empresariais são, por natureza, multimodais. Um agente precisa interpretar telas, documentos, áudio, vídeo e texto — frequentemente dentro do mesmo ciclo de raciocínio. O problema é que a maioria dos sistemas agênticos atuais costura vários modelos separados para visão, fala e linguagem. Isso gera:

Aumento de latência por múltiplas passagens de inferência
Complexidade na orquestração e no tratamento de erros
Fragmentação de contexto entre modalidades
Custos e pontos de falha amplificados ao longo do tempo

O Nemotron 3 Nano Omni resolve esse problema funcionando como o sub-agente de percepção e contexto multimodal em um sistema de agentes. Ele fornece ao sistema de agentes “olhos e ouvidos”: lê telas, interpreta documentos, transcreve fala e analisa vídeo — tudo mantendo um contexto multimodal convergido ao longo dos ciclos de raciocínio.

Para quem está construindo arquiteturas agênticas, isso significa colapsar saltos de inferência, lógica de orquestração e sobrecarga de sincronização entre modelos em uma única chamada de modelo.

Formatos de entrada suportados

Vídeo: mp4 — até 2 minutos, até 256 frames
Áudio: wav, mp3 — até 1 hora, taxa de amostragem de 8kHz ou superior
Imagem: JPEG, PNG (RGB) — resolução padrão
Texto: String — até 131K de contexto

Casos de uso empresariais

Agentes de uso computacional

O Nemotron 3 Nano Omni alimenta o loop de percepção de agentes que navegam em Interfaces Gráficas de Usuário (GUI). Ele lê telas, entende o estado da interface ao longo do tempo e valida resultados, enquanto agentes de execução cuidam das ações. Isso elimina a necessidade de pipelines de percepção separados. Aplicações práticas incluem dashboards de gerenciamento de incidentes, busca agêntica, automação de navegador e agentes de fluxo de trabalho de e-mail.

Inteligência documental

O modelo interpreta documentos, gráficos, tabelas, capturas de tela e entradas de mídia mista, permitindo que agentes raciocinem de forma coerente sobre estrutura visual e conteúdo textual. Isso é fundamental para análises empresariais e fluxos de conformidade envolvendo contratos, declarações de trabalho, documentos financeiros e literatura científica.

Agentes de compreensão de áudio e vídeo

Para fluxos de atendimento ao cliente, pesquisa e monitoramento, o Nemotron 3 Nano Omni mantém contexto contínuo de áudio e vídeo. Ele conecta o que foi dito, mostrado e documentado em um único fluxo de raciocínio. Isso viabiliza aplicações como análise de gravações de reuniões, gerenciamento de ativos de mídia e entretenimento, verificação de pedidos em drive-thru e revisão de vídeos de atendimento ao cliente.

Como fazer o deploy no SageMaker JumpStart

O deploy do Nemotron 3 Nano Omni pelo Amazon SageMaker JumpStart pode ser feito de duas formas. O JumpStart cuida da infraestrutura, dos containers de inferência otimizados e do download dos artefatos do modelo automaticamente.

Pré-requisitos

Uma conta AWS ativa
Permissões adequadas para o SageMaker JumpStart
Cota de serviço suficiente para instâncias GPU (por exemplo, ml.p4d.24xlarge ou ml.p5.48xlarge)

Deploy pelo SageMaker Studio

Abra o Amazon SageMaker Studio
No painel de navegação esquerdo, selecione JumpStart
Pesquise por Nemotron 3 Nano Omni
Selecione o card do modelo e clique em Deploy
Configure o tipo de instância e as configurações de deploy
Clique em Deploy para criar o endpoint

Deploy pelo SDK Python do SageMaker

Também é possível fazer o deploy de forma programática usando o SDK Python do SageMaker:

from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(
    model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
    role="",
)

predictor = model.deploy(
    accept_eula=True,
)

Executando inferência

Compreensão de imagem

import base64

def encode_image(image_path):
    with open(image_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

image_b64 = encode_image("example.jpg")

payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "text", "text": "Describe this image in detail."},
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
        ],
    }],
    "max_tokens": 1024,
    "temperature": 0.2,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Compreensão de vídeo com raciocínio

import base64

def encode_video(video_path):
    with open(video_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

video_b64 = encode_video("meeting_recording.mp4")

payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "video_url", "video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},
            {"type": "text", "text": "Summarize the key discussion points."},
        ],
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Transcrição de áudio

import base64

def encode_audio(audio_path):
    with open(audio_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

audio_b64 = encode_audio("customer_call.wav")

payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "audio_url", "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},
            {"type": "text", "text": "Transcribe this audio and identify key action items."},
        ],
    }],
    "max_tokens": 1024,
    "temperature": 0.2,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Parâmetros de inferência recomendados

Os valores recomendados variam de acordo com o modo de inferência:

Modo Thinking (raciocínio): temperature 0.6, top_p 0.95, max_tokens 20480 — para raciocínio complexo
Modo Instruct: temperature 0.2, max_tokens 1024 — para tarefas gerais e Reconhecimento Automático de Fala (ASR)

Para tarefas que envolvem raciocínio e compreensão complexa, recomenda-se habilitar o modo thinking. Para transcrição e tarefas diretas, o modo instruct oferece respostas mais rápidas.

Limpeza de recursos

Para evitar cobranças desnecessárias, exclua o endpoint do SageMaker ao terminar:

predictor.delete_endpoint()

Conclusão

O NVIDIA Nemotron 3 Nano Omni representa um avanço relevante em inteligência multimodal disponível no Amazon SageMaker JumpStart. Ao unificar compreensão de vídeo, áudio, imagem e texto em um único modelo eficiente, ele simplifica o desenvolvimento de aplicações agênticas empresariais e entrega, segundo a NVIDIA, até 9x mais throughput em comparação com modelos omni abertos alternativos.

Seja para construir agentes que navegam em interfaces gráficas, pipelines de inteligência documental para fluxos de conformidade, ou sistemas de análise de áudio e vídeo para atendimento ao cliente, o Nemotron 3 Nano Omni oferece a camada de percepção necessária em uma única chamada de modelo. Para mais informações sobre o modelo, acesse a página do NVIDIA Nemotron no Hugging Face.

Fonte

NVIDIA Nemotron 3 Nano Omni model now available on Amazon SageMaker JumpStart (https://aws.amazon.com/blogs/machine-learning/nvidia-nemotron-3-nano-omni-model-now-available-on-amazon-sagemaker-jumpstart/)