O que é o NVIDIA Nemotron 3 Nano Omni?
A NVIDIA disponibilizou o modelo Nemotron 3 Nano Omni no Amazon SageMaker JumpStart com disponibilidade imediata desde o dia zero do lançamento. Trata-se de um Modelo de Linguagem Grande (LLM) multimodal aberto, com 30 bilhões de parâmetros totais e 3 bilhões de parâmetros ativos — uma configuração chamada de 30B A3B.
O modelo é construído sobre uma arquitetura híbrida chamada Mamba2 Transformer com Mistura de Especialistas (MoE), que combina três componentes principais:
- Nemotron 3 Nano LLM — a espinha dorsal de linguagem
- CRADIO v4-H — o encoder de visão para imagens e vídeos
- Parakeet — o encoder de fala para transcrição e compreensão de áudio
Essa arquitetura unificada aceita vídeo, áudio, imagens e texto como entrada e gera texto como saída. O modelo suporta um contexto de 131 mil tokens, raciocínio em cadeia de pensamento, chamada de ferramentas, saída em JSON e timestamps em nível de palavra para tarefas de transcrição. No SageMaker JumpStart, ele está disponível em precisão FP8, equilibrando acurácia e eficiência para cargas de trabalho empresariais. A licença é a NVIDIA Open Model Agreement, permitindo uso comercial.
Por que um modelo multimodal unificado importa?
Fluxos de trabalho de agentes empresariais são, por natureza, multimodais. Um agente precisa interpretar telas, documentos, áudio, vídeo e texto — frequentemente dentro do mesmo ciclo de raciocínio. O problema é que a maioria dos sistemas agênticos atuais costura vários modelos separados para visão, fala e linguagem. Isso gera:
- Aumento de latência por múltiplas passagens de inferência
- Complexidade na orquestração e no tratamento de erros
- Fragmentação de contexto entre modalidades
- Custos e pontos de falha amplificados ao longo do tempo
O Nemotron 3 Nano Omni resolve esse problema funcionando como o sub-agente de percepção e contexto multimodal em um sistema de agentes. Ele fornece ao sistema de agentes “olhos e ouvidos”: lê telas, interpreta documentos, transcreve fala e analisa vídeo — tudo mantendo um contexto multimodal convergido ao longo dos ciclos de raciocínio.
Para quem está construindo arquiteturas agênticas, isso significa colapsar saltos de inferência, lógica de orquestração e sobrecarga de sincronização entre modelos em uma única chamada de modelo.
Formatos de entrada suportados
- Vídeo: mp4 — até 2 minutos, até 256 frames
- Áudio: wav, mp3 — até 1 hora, taxa de amostragem de 8kHz ou superior
- Imagem: JPEG, PNG (RGB) — resolução padrão
- Texto: String — até 131K de contexto
Casos de uso empresariais
Agentes de uso computacional
O Nemotron 3 Nano Omni alimenta o loop de percepção de agentes que navegam em Interfaces Gráficas de Usuário (GUI). Ele lê telas, entende o estado da interface ao longo do tempo e valida resultados, enquanto agentes de execução cuidam das ações. Isso elimina a necessidade de pipelines de percepção separados. Aplicações práticas incluem dashboards de gerenciamento de incidentes, busca agêntica, automação de navegador e agentes de fluxo de trabalho de e-mail.
Inteligência documental
O modelo interpreta documentos, gráficos, tabelas, capturas de tela e entradas de mídia mista, permitindo que agentes raciocinem de forma coerente sobre estrutura visual e conteúdo textual. Isso é fundamental para análises empresariais e fluxos de conformidade envolvendo contratos, declarações de trabalho, documentos financeiros e literatura científica.
Agentes de compreensão de áudio e vídeo
Para fluxos de atendimento ao cliente, pesquisa e monitoramento, o Nemotron 3 Nano Omni mantém contexto contínuo de áudio e vídeo. Ele conecta o que foi dito, mostrado e documentado em um único fluxo de raciocínio. Isso viabiliza aplicações como análise de gravações de reuniões, gerenciamento de ativos de mídia e entretenimento, verificação de pedidos em drive-thru e revisão de vídeos de atendimento ao cliente.
Como fazer o deploy no SageMaker JumpStart
O deploy do Nemotron 3 Nano Omni pelo Amazon SageMaker JumpStart pode ser feito de duas formas. O JumpStart cuida da infraestrutura, dos containers de inferência otimizados e do download dos artefatos do modelo automaticamente.
Pré-requisitos
- Uma conta AWS ativa
- Permissões adequadas para o SageMaker JumpStart
- Cota de serviço suficiente para instâncias GPU (por exemplo,
ml.p4d.24xlargeouml.p5.48xlarge)
Deploy pelo SageMaker Studio
- Abra o Amazon SageMaker Studio
- No painel de navegação esquerdo, selecione JumpStart
- Pesquise por Nemotron 3 Nano Omni
- Selecione o card do modelo e clique em Deploy
- Configure o tipo de instância e as configurações de deploy
- Clique em Deploy para criar o endpoint
Deploy pelo SDK Python do SageMaker
Também é possível fazer o deploy de forma programática usando o SDK Python do SageMaker:
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
role="",
)
predictor = model.deploy(
accept_eula=True,
)
Executando inferência
Compreensão de imagem
import base64
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
image_b64 = encode_image("example.jpg")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Describe this image in detail."},
{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Compreensão de vídeo com raciocínio
import base64
def encode_video(video_path):
with open(video_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
video_b64 = encode_video("meeting_recording.mp4")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "video_url", "video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},
{"type": "text", "text": "Summarize the key discussion points."},
],
}],
"max_tokens": 20480,
"temperature": 0.6,
"top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Transcrição de áudio
import base64
def encode_audio(audio_path):
with open(audio_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
audio_b64 = encode_audio("customer_call.wav")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "audio_url", "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},
{"type": "text", "text": "Transcribe this audio and identify key action items."},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Parâmetros de inferência recomendados
Os valores recomendados variam de acordo com o modo de inferência:
- Modo Thinking (raciocínio): temperature 0.6, top_p 0.95, max_tokens 20480 — para raciocínio complexo
- Modo Instruct: temperature 0.2, max_tokens 1024 — para tarefas gerais e Reconhecimento Automático de Fala (ASR)
Para tarefas que envolvem raciocínio e compreensão complexa, recomenda-se habilitar o modo thinking. Para transcrição e tarefas diretas, o modo instruct oferece respostas mais rápidas.
Limpeza de recursos
Para evitar cobranças desnecessárias, exclua o endpoint do SageMaker ao terminar:
predictor.delete_endpoint()
Conclusão
O NVIDIA Nemotron 3 Nano Omni representa um avanço relevante em inteligência multimodal disponível no Amazon SageMaker JumpStart. Ao unificar compreensão de vídeo, áudio, imagem e texto em um único modelo eficiente, ele simplifica o desenvolvimento de aplicações agênticas empresariais e entrega, segundo a NVIDIA, até 9x mais throughput em comparação com modelos omni abertos alternativos.
Seja para construir agentes que navegam em interfaces gráficas, pipelines de inteligência documental para fluxos de conformidade, ou sistemas de análise de áudio e vídeo para atendimento ao cliente, o Nemotron 3 Nano Omni oferece a camada de percepção necessária em uma única chamada de modelo. Para mais informações sobre o modelo, acesse a página do NVIDIA Nemotron no Hugging Face.
Fonte
NVIDIA Nemotron 3 Nano Omni model now available on Amazon SageMaker JumpStart (https://aws.amazon.com/blogs/machine-learning/nvidia-nemotron-3-nano-omni-model-now-available-on-amazon-sagemaker-jumpstart/)
Leave a Reply