Blog

AWS DataSync agora suporta AWS Secrets Manager em todos os tipos de locais
Gerenciamento de Credenciais Simplificado no AWS DataSync

A AWS anunciou uma expansão significativa no AWS DataSync: agora o serviço oferece suporte completo ao AWS Secrets Manager para gerenciamento de credenciais em todos os tipos de locais. Até então, essa integração era limitada a apenas um subconjunto de tipos de local, o que obrigava os usuários a fornecer credenciais diretamente pela API ou console do DataSync.

Com essa evolução, tornou-se possível centralizar o gerenciamento de credenciais de todas as transferências de dados em um único lugar — o Secrets Manager — proporcionando uma abordagem consistente e unificada.

Cobertura Expandida de Tipos de Local

A novidade cobre todos os principais sistemas de armazenamento distribuído e de arquivos suportados pelo DataSync, entre eles:
- HDFS (Hadoop Distributed File System)
- Amazon FSx for Windows File Server
- Amazon FSx for NetApp ONTAP
Segurança e Governança Aprimoradas

Um dos diferenciais dessa atualização é a possibilidade de criptografar credenciais com chaves AWS KMS personalizadas, em vez de depender apenas da chave padrão de propriedade da AWS. Isso permite que as organizações atendessem melhor aos seus requisitos de segurança e às políticas de governança interna.

Todos os segredos são armazenados na sua própria conta, o que garante autonomia total para atualizar credenciais conforme necessário, independentemente do serviço DataSync.

Duas Abordagens de Gerenciamento

A AWS oferece flexibilidade ao disponibilizar dois modelos de gerenciamento de credenciais:
- Controle manual: forneça um ARN de segredo referenciando credenciais que você gerencia no Secrets Manager, mantendo controle total sobre rotação, auditoria e políticas de acesso.
- Gerenciamento automático: o DataSync pode criar e gerenciar automaticamente os segredos em seu nome, simplificando o processo.
Disponibilidade e Próximos Passos

Essa capacidade está disponível na maioria das regiões AWS onde o DataSync é oferecido. Para consultar a lista completa de regiões suportadas, visite a ferramenta de Capacidades da AWS no Builder Center.

Para começar a usar esse recurso, acesse o console do AWS DataSync. Detalhes técnicos adicionais estão disponíveis na documentação sobre gerenciamento de credenciais com AWS Secrets Manager.

Fonte

AWS DataSync now supports AWS Secrets Manager for all location types (https://aws.amazon.com/about-aws/whats-new/2026/03/aws-datasync-secrets-manager/)
March 21, 2026
AWS Neuron anuncia suporte para Alocação Dinâmica de Recursos com Amazon EKS

Simplificando a Implantação de Cargas de Trabalho de IA em Kubernetes

A AWS anunciou o lançamento do driver Neuron Dynamic Resource Allocation (DRA) para o Amazon Elastic Kubernetes Service (EKS), trazendo agendamento de hardware inteligente e nativo do Kubernetes para instâncias baseadas em AWS Trainium. Esta solução representa um avanço significativo na forma como engenheiros trabalham com cargas de trabalho de inteligência artificial em ambientes containerizados.

O Desafio da Implantação de IA em Kubernetes

Implantar cargas de trabalho de IA sobre Kubernetes historicamente exigiu que engenheiros de machine learning tomassem decisões de infraestrutura que fogem do escopo do desenvolvimento de modelos. Determinar a quantidade de dispositivos aceleradores, compreender topologias de hardware e rede, e escrever manifestos específicos para aceleradores eram tarefas que criavam friction significativo no fluxo de trabalho.

À medida que os casos de uso evoluem para treinamento distribuído, inferência com contexto longo e arquiteturas desagregadas, essa complexidade se torna um gargalo crítico para escalabilidade. Os engenheiros de ML acabavam acoplando suas cargas de trabalho diretamente à infraestrutura subjacente, dificultando a portabilidade e reusabilidade do código.

Como o Driver Neuron DRA Resolve o Problema

O driver Neuron DRA elimina essa barreira ao separar as preocupações de infraestrutura dos fluxos de trabalho de machine learning. A solução funciona da seguinte forma:

O driver publica atributos detalhados de dispositivos diretamente para o agendador do Kubernetes, habilitando decisões de alocação com conhecimento de topologia sem necessidade de extensões de agendador customizadas. Times de infraestrutura definem templates reutilizáveis chamados ResourceClaimTemplates que capturam políticas de topologia de dispositivos, alocação e rede. Engenheiros de ML podem simplesmente referenciar esses templates em seus manifestos, sem precisar raciocinar sobre detalhes de hardware.

Essa abordagem permite implantação consistente em diferentes tipos de carga de trabalho, enquanto permite configurações específicas por carga de trabalho. Múltiplas cargas de trabalho conseguem compartilhar eficientemente os mesmos nós sem conflitos de recursos.

Disponibilidade e Próximos Passos

O driver Neuron DRA suporta todos os tipos de instâncias AWS Trainium e está disponível em todas as regiões AWS onde o AWS Trainium funciona.

Para implementar a solução, acesse a documentação do Neuron DRA, explore templates Neuron EKS DRA prontos para uso, e consulte a documentação de Kubernetes do Neuron. Também está disponível a documentação do Amazon EKS para gerenciamento de dispositivos Neuron.

Fonte

AWS Neuron announces support for Dynamic Resource Allocation with Amazon EKS (https://aws.amazon.com/about-aws/whats-new/2026/03/neuron-eks-dra-support/)

March 21, 2026
Amazon Bedrock AgentCore Runtime agora suporta WebRTC para streaming bidirecional em tempo real
WebRTC chega ao Amazon Bedrock AgentCore Runtime

A AWS anunciou a adição de suporte a WebRTC (Web Real-Time Communication) no Amazon Bedrock AgentCore Runtime, expandindo as opções de conectividade bidirecional em tempo real. Essa nova capacidade vem acompanhando o protocolo WebSocket já disponível, oferecendo aos desenvolvedores mais flexibilidade na construção de agentes de voz para aplicações de navegador e dispositivos móveis.

Com o WebRTC, torna-se possível estabelecer streaming bidirecional de áudio e vídeo com latência extremamente baixa, graças ao transporte peer-to-peer baseado em UDP. Isso resulta em experiências conversacionais mais naturais e responsivas, características essenciais para agentes de voz que precisam interagir em tempo real.

WebRTC vs. WebSocket: Quando usar cada protocolo

Embora ambos os protocolos forneçam conectividade bidirecional completa, cada um possui características distintas que os tornam apropriados para cenários diferentes. O WebSocket estabelece conexões persistentes e full-duplex, funcionando sobre TCP, e é particularmente adequado para streaming de texto e áudio onde a confiabilidade da entrega é prioridade.

O WebRTC, por sua vez, foi otimizado especificamente para entrega de mídia em tempo real, onde a latência baixa é crítica. Essa característica o torna ideal para agentes de voz em navegadores e aplicações móveis que exigem interação praticamente instantânea.

Configuração flexível de infraestrutura TURN

Para que o WebRTC funcione adequadamente, é necessário um relé TURN (Traversal Using Relays around NAT) para o tráfego de mídia. O AgentCore Runtime oferece aos desenvolvedores três opções de configuração:
- Amazon Kinesis Video Streams TURN gerenciado: uma solução completamente gerenciada pela AWS, com integração nativa do AWS IAM
- Provedor terceirizado: flexibilidade para usar serviços TURN de outros fornecedores
- Infraestrutura TURN auto-hospedada: total controle sobre a configuração e operação
Essa abordagem multi-opção reconhece que diferentes organizações têm necessidades e arquiteturas distintas, permitindo escolher a solução que melhor se alinha com sua estratégia de infraestrutura.

Observabilidade e escalabilidade unificadas

Tanto WebRTC quanto WebSocket beneficiam-se dos mesmos recursos do AgentCore Runtime: isolamento de sessão, observabilidade avançada e escalabilidade automática. Isso significa que sua aplicação pode gerenciar eficientemente múltiplas conexões simultâneas, independentemente do protocolo escolhido.

Disponibilidade regional

O WebRTC está disponível no AgentCore Runtime em quatorze regiões da AWS: Leste dos EUA (Virgínia do Norte), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Ásia Pacífico (Mumbai), Canadá (Central), Ásia Pacífico (Seul), Ásia Pacífico (Singapura), Ásia Pacífico (Sydney), Ásia Pacífico (Tóquio), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris) e Europa (Estocolmo).

Começando com WebRTC no AgentCore

Para quem deseja explorar essa funcionalidade, a AWS disponibiliza documentação prática e exemplos prontos para implantação. Consulte a seção Streaming bidirecional na documentação do Amazon Bedrock AgentCore, que inclui exemplos prontos para deploy de ambos os protocolos:
Esses exemplos facilitam o entendimento prático de como integrar WebRTC em suas aplicações, desde configurações simples até cenários mais complexos com diferentes stacks tecnológicos.

Fonte

Amazon Bedrock AgentCore Runtime adds WebRTC support for real-time bidirectional streaming (https://aws.amazon.com/about-aws/whats-new/2026/03/amazon-bedrock-webrtc/)
March 21, 2026
Geração de vídeos com busca contextual usando Amazon Bedrock e Amazon Nova Reel

Desafios na geração de vídeos customizados

A geração de vídeos de alta qualidade e totalmente personalizados continua sendo um desafio significativo para muitas organizações. O principal problema é que os modelos de geração de vídeo existentes ficam limitados ao conhecimento com o qual foram treinados, dificultando a criação de conteúdo verdadeiramente customizado. Essa limitação afeta especialmente setores como publicidade, produção audiovisual, educação e games, onde o controle fino sobre o resultado do vídeo é essencial.

Para contornar essa questão, a AWS desenvolveu uma abordagem chamada Video Retrieval Augmented Generation (VRAG) — uma arquitetura multimodal que transforma texto estruturado em vídeos personalizados usando uma biblioteca de imagens como referência. A solução integra Amazon Bedrock, Amazon Nova Reel, o mecanismo de busca vetorial do Amazon OpenSearch Service e o Amazon Simple Storage Service (S3) em um fluxo de trabalho totalmente automatizado.

Como funciona a solução VRAG

Fluxo de funcionamento

O usuário fornece um objeto de interesse (por exemplo, “céu azul”) e a solução consulta o mecanismo de busca vetorial do OpenSearch para recuperar a imagem mais relevante de um conjunto de dados indexado. Em seguida, define um prompt de ação (por exemplo, “câmera gira no sentido horário”), que é combinado com a imagem recuperada para gerar o vídeo usando o Amazon Nova Reel.

Prompts estruturados em arquivos de texto permitem a geração de múltiplos vídeos em uma única execução, criando uma base escalável e reutilizável para geração de mídia assistida por inteligência artificial.

Componentes principais

Recuperação e processamento de imagens: O usuário fornece o objeto de interesse, e a solução consulta o mecanismo de busca vetorial para recuperar a imagem mais relevante de um conjunto de dados indexado contendo imagens e descrições pré-processadas. A imagem é então recuperada de um bucket S3.

Geração de vídeos baseada em prompts: O usuário define um prompt de ação, que é combinado com a imagem recuperada para gerar um vídeo usando o Amazon Nova Reel.

Processamento em lote para múltiplos prompts: A solução lê uma lista de templates de texto de um arquivo chamado prompts.txt, contendo placeholders que permitem o processamento em lote de várias requisições de geração de vídeo com variações estruturadas: <object_prompt> (objeto consultado), <action_prompt> (movimento de câmera ou ação de cena).

Monitoramento e armazenamento: Como a geração de vídeo é assíncrona, a solução monitora o status da tarefa. Quando concluída, o vídeo é armazenado em um bucket S3 e automaticamente baixado para visualização.

Casos de uso práticos

Vídeos educacionais: Criação automática de vídeos instrucionais recuperando imagens relevantes de uma base de conhecimento.

Conteúdo de marketing: Geração de anúncios direcionados recuperando imagens alinhadas a demográficos específicos ou características de produtos.

Conteúdo personalizado: Customização de vídeos para usuários individuais recuperando imagens baseadas em seus interesses específicos.

Exemplo prático: Agência de viagens

Para demonstrar os recursos, considere uma agência de viagens que deseja criar um anúncio apresentando uma cena de praia deslumbrante de um local específico, com câmera panorâmica em direção a um caiaque para atrair reservas de férias.

Usando apenas texto como entrada, o prompt “Panorâmica muito lenta de cima para baixo do céu azul até um caiaque colorido flutuando em água turquesa” gera um vídeo baseado no conhecimento pré-treinado do modelo.

Aplicando VRAG com uma imagem estática da agência, o mesmo prompt agora permite incorporar conteúdo na imagem específica. O resultado é mais alinhado com o cenário e marca da agência.

Implementação: Arquitetura e notebooks

A AWS fornece um modelo CloudFormation que facilita a implantação em poucas etapas. Após a configuração, você terá acesso a uma série de sete notebooks sequenciais numerados de _00 a _06, cada um com instruções passo a passo e objetivos específicos.

Processamento de imagens (notebook _00)

Este notebook automatiza o processamento em lote de imagens, redimensionamento inteligente, encoding em Base64 para compatibilidade com APIs, e armazenamento em S3. Utilizando o Amazon Bedrock com o Amazon Nova, também gera descrições automáticas de imagens, integrando análise multimodal com gerenciamento robusto de dados.

Ingestão de imagens (notebook _01)

Responsável por gerenciar o banco de dados vetorial: criação e configuração de índices, ingestão em massa, e armazenamento eficiente de vetores. Com o Amazon Bedrock e Amazon Titan Embeddings, gera embeddings multimodais e permite buscas semânticas usando implementação de k-NN. O Amazon OpenSearch Serverless armazena e busca esses vetores de forma serverless.

Geração de vídeo a partir de texto (notebook _02)

Constrói a requisição de carga para geração de vídeo com texto como prompt, inicia uma tarefa assíncrona no Amazon Bedrock, rastreia o progresso e recupera o vídeo gerado do S3 para visualização no notebook.

Geração de vídeo com prompts de texto e imagem (notebook _03)

Similar ao anterior, mas agora aceita tanto texto quanto imagem como entrada. O notebook constrói a requisição com ambos os inputs, gerencia a tarefa assíncrona e exibe o vídeo resultante.

Geração de vídeo a partir de múltiplas modalidades (notebook _04)

Implementa o processo VRAG completo: gera embedding para o prompt de entrada, busca no índice de coleção do OpenSearch Serverless, e combina texto com imagens recuperadas para gerar vídeos em escala com observabilidade.

Atualização de imagens com inpainting (notebook _05)

Utiliza o Amazon Nova Reel para leitura de imagens em Base64 e geração de imagens com inpainting, permitindo remover objetos indesejados, corrigir porções de imagens ou modificar criativamente áreas específicas.

Geração de vídeo com imagens aprimoradas (notebook _06)

Busca imagens relevantes no OpenSearch Service usando consultas em linguagem natural, define máscaras explícitas para regiões de inpainting e gera vídeos usando as imagens aprimoradas. Demonstra como o inpainting pode potencializar a qualidade final do vídeo gerado.

Pré-requisitos e implantação

Você precisará ter acesso a uma conta AWS válida e familiaridade com instâncias de notebook do Amazon SageMaker.

A implantação utiliza um modelo do AWS CloudFormation no padrão de região US East (N. Virginia). Consulte a documentação sobre suporte de modelos por região no Amazon Bedrock para verificar se o Amazon Nova Reel está disponível em sua região.

Após a implantação bem-sucedida, a instância de notebook do SageMaker ficará pronta. Você abrirá o JupyterLab e acessará a pasta sample-video-rag contendo todos os notebooks necessários.

Boas práticas para produção

Um processo eficiente de geração de vídeo com inteligência artificial requer integração contínua de gerenciamento de dados, otimização de buscas e conformidade regulatória.

Qualidade dos dados: A qualidade do vídeo gerado depende fortemente da qualidade e relevância do banco de dados de imagens utilizado na busca contextual. Imagens de baixa qualidade ou pouco relevantes resultarão em vídeos subótimos.

Legendas de imagens: Para resultados ótimos, considere incorporar legendas de imagens ou metadados que forneçam contexto adicional para a solução.

Edição de vídeos: Embora a busca contextual forneça os elementos visuais principais, técnicas adicionais de edição de vídeo podem ser necessárias para criar um produto final polido.

Conformidade regulatória: Mantenha aderência rigorosa às diretrizes da Lei de IA da EU e outras regulamentações aplicáveis ao seu contexto.

Limpeza de recursos

Para evitar cobranças futuras, limpe os recursos criados. No console do Amazon S3, localize o bucket criado pelo modelo CloudFormation, escolha “Esvaziar” e confirme a exclusão. Em seguida, no console do AWS CloudFormation, selecione o stack, escolha “Deletar” e confirme. Isso removerá todos os recursos provisionados, incluindo a instância de notebook do SageMaker, a coleção do OpenSearch Serverless e as funções IAM.

Considerações finais

A busca contextual para geração de vídeos representa um avanço significativo na criação de conteúdo assistida por inteligência artificial, integrando bancos de dados de imagens existentes com prompts de usuários para produzir conteúdo de vídeo contextualmente relevante. Essa abordagem demonstra aplicações poderosas em educação, marketing, entretenimento e além.

À medida que a tecnologia de geração de vídeo continua evoluindo, essa solução oferece uma base sólida para criar conteúdo de vídeo envolvente e contextualmente consciente em escala. Seguindo as boas práticas e mantendo foco em qualidade de dados, organizações podem transformar seus processos de criação de conteúdo em vídeo enquanto produzem resultados consistentes e de alta qualidade.

Fonte

Use RAG for video generation using Amazon Bedrock and Amazon Nova Reel (https://aws.amazon.com/blogs/machine-learning/use-rag-for-video-generation-using-amazon-bedrock-and-amazon-nova-reel/)

March 20, 2026
Instâncias Amazon EC2 C8gn agora disponíveis em mais regiões

Expansão global das instâncias C8gn com processadores Graviton4

A AWS expandiu a disponibilidade das instâncias Amazon EC2 C8gn para novas regiões geográficas. Equipadas com os mais recentes processadores AWS Graviton4, essas instâncias agora podem ser provisioning em cinco novas regiões: Ásia Pacífico (Jacarta, Hyderabad, Tóquio), América do Sul (São Paulo) e Europa (Zurique).

Desempenho e capacidades de rede

As instâncias C8gn oferecem melhorias significativas em relação à geração anterior. Elas fornecem até 30% melhor desempenho computacional comparadas às instâncias Amazon EC2 C7gn baseadas em Graviton3. Um destaque importante é a largura de banda de rede: as C8gn suportam até 600 Gbps, a maior entre todas as instâncias EC2 otimizadas para rede.

Essas máquinas também integram as mais novas placas AWS Nitro (6ª geração), proporcionando capacidades de rede aprimoradas que permitem melhor escalabilidade e throughput em workloads intensivos de rede.

Especificações e escalabilidade

A linha C8gn oferece opções de instâncias até o tamanho 48xlarge, com até 384 GiB de memória e até 60 Gbps de largura de banda para Amazon Elastic Block Store (EBS). Para workloads que exigem ainda mais conectividade, os tamanhos 16xlarge, 24xlarge, 48xlarge, metal-24xl e metal-48xl suportam Elastic Fabric Adapter (EFA), uma tecnologia de networking que reduz latência e melhora o desempenho de clusters para aplicações altamente acopladas.

Casos de uso ideais

A AWS recomenda as instâncias C8gn para cargas de trabalho intensivas em rede, como appliances virtuais de rede, processamento de dados em grande escala, e inferência de inteligência artificial e aprendizado de máquina (IA/ML) baseada em CPU. A combinação de desempenho computacional robusto com conectividade extremamente alta torna essas instâncias particularmente atrativas para cenários que demandam simultânea processamento intensivo e movimentação rápida de dados.

Disponibilidade global

As instâncias C8gn estão agora disponíveis em um conjunto abrangente de regiões AWS: Leste dos EUA (Virgínia do Norte, Ohio), Oeste dos EUA (Oregon, Califórnia do Norte), Europa (Frankfurt, Estocolmo, Irlanda, Londres, Espanha, Zurique), Ásia Pacífico (Singapura, Malásia, Sydney, Tailândia, Mumbai, Seul, Melbourne, Jacarta, Hyderabad, Tóquio), Oriente Médio (Emirados Árabes Unidos), África (Cidade do Cabo), Canadá Oeste (Calgary, Central), América do Sul (São Paulo), e AWS GovCloud (Leste dos EUA, Oeste dos EUA).

Próximos passos

Para explorar mais detalhes sobre essas instâncias, consulte a documentação sobre Instâncias Amazon C8gn. Quem deseja iniciar sua jornada com processadores AWS Graviton pode visitar a página Potencialize seu compute com AWS Graviton. Para começar, você pode acessar o Console de Gerenciamento AWS, a Interface de Linha de Comando AWS (AWS CLI), ou os SDKs AWS.

Fonte

Amazon EC2 C8gn instances are now available in additional regions (https://aws.amazon.com/about-aws/whats-new/2026/03/amazon-ec2-c8gn-instances-additional-regions/)

March 20, 2026
Amazon Redshift agora suporta permissões federadas com IAM Identity Center em múltiplas regiões AWS
Permissões federadas do Redshift com alcance regional

A AWS anunciou uma expansão importante no Redshift: agora é possível utilizar permissões federadas com o IAM Identity Center (Centro de Identidade IAM) em múltiplas regiões AWS. Esta capacidade permite que organizações estendam o IdC da região primária para regiões adicionais, garantindo melhor desempenho através da proximidade com usuários e aumentando a confiabilidade operacional.

Simplificação da administração em novas regiões

Quando uma nova região é adicionada no IdC, é possível criar aplicações Redshift e Lake Formation Identity Center naquela região sem necessidade de replicar identidades da região primária. Este é um ponto importante: a arquitetura permite que você aproveite as identidades corporativas já existentes no IdC para consultar dados em warehouses localizados na nova região, eliminando redundâncias administrativas.

Controles de acesso granulares e automatizados

Um dos principais diferenciais desta solução é a aplicação automática de controles de acesso em diferentes níveis. Independentemente de qual warehouse seja utilizado para executar consultas, os controles de:
- Nível de linha
- Nível de coluna
- Mascaramento de dados
…são aplicados automaticamente em todas as operações, garantindo conformidade com políticas de acesso granular definidas centralmente. Isto significa que a segurança e governança de dados são mantidas consistentes entre regiões, sem depender de configurações repetidas.

Integração com ferramentas de consulta e BI

A AWS também expandiu as opções de autenticação. Você pode acessar o Amazon Redshift com single sign-on (SSO) nestas novas regiões através de:
- Amazon QuickSight
- Amazon Redshift Query Editor
- Ferramentas SQL de terceiros
Esta integração oferece uma experiência de usuário unificada, onde a autenticação corporativa via IdC funciona consistentemente em diferentes interfaces de acesso.

Como começar

Para iniciar a implementação de permissões federadas no Redshift utilizando IdC, a AWS disponibiliza recursos técnicos incluindo um artigo detalhado sobre como escalar permissões granulares entre warehouses e a documentação técnica do Redshift sobre este recurso.

Para estender o suporte do IdC em múltiplas regiões, consulte também a documentação do Identity Center, a documentação completa do Redshift sobre controle de acesso, a documentação do Lake Formation para casos de integração com este serviço, e verifique a disponibilidade regional do recurso em sua zona geográfica.

Fonte

Amazon Redshift supports federated permissions with IAM Identity Center in multiple AWS Regions (https://aws.amazon.com/about-aws/whats-new/2026/03/redshift-federated-permissions-idc-mrr/)
March 20, 2026
NVIDIA Nemotron 3 Super agora está disponível no Amazon Bedrock
Apresentação do Nemotron 3 Super no Amazon Bedrock

O modelo NVIDIA Nemotron 3 Super está oficialmente disponível como um serviço completamente gerenciado e serverless no Amazon Bedrock, integrando-se aos modelos Nemotron Nano que já operavam nesse ambiente. Essa integração oferece aos desenvolvedores a possibilidade de potencializar suas aplicações de IA generativa com Nemotron, aproveitando a inferência totalmente gerenciada fornecida pelo Bedrock, sem as complexidades associadas ao gerenciamento de infraestrutura.

A disponibilidade deste modelo representa um avanço significativo para organizações que buscam construir sistemas agentos sofisticados e aplicações que demandem raciocínio de alto nível. Ao combinar o Nemotron 3 Super com a plataforma Bedrock, empresas podem acelerar inovação e entregar valor tangível de negócio, mantendo a simplicidade operacional.

Características Técnicas do Nemotron 3 Super

Arquitetura e Especialização

O Nemotron 3 Super é um modelo híbrido de Mistura de Especialistas (MoE — Mixture of Experts) projetado com eficiência computacional líder de sua categoria e precisão elevada para aplicações multi-agentes e sistemas especializados de IA agentos. A NVIDIA liberou o modelo com pesos abertos, conjuntos de dados e receitas, permitindo que desenvolvedores customizem, melhorem e implantem o modelo em suas próprias infraestruturas quando necessário, garantindo maior privacidade e segurança.

Arquitetura: O modelo utiliza MoE com uma arquitetura híbrida Transformer-Mamba, incorporando orçamento de tokens para entregar precisão aprimorada com geração mínima de tokens de raciocínio.

Precisão: O Nemotron 3 Super alcança a maior eficiência de throughput em sua categoria de tamanho, com ganhos de até 5 vezes em relação à versão anterior do Nemotron Super. Para tarefas de raciocínio e IA agentos, demonstra precisão líder entre modelos abertos disponíveis, superando a versão anterior em até 2 vezes. O modelo mantém alta precisão em diversos benchmarks reconhecidos, incluindo AIME 2025, Terminal-Bench, SWE Bench verificado e multilíngue, além do RULER.

Treinamento multi-ambiental: O treinamento com reforço em múltiplos ambientes proporcionou ao modelo precisão líder em mais de 10 ambientes utilizando NVIDIA NeMo.

Especificações de Tamanho e Contexto

O modelo possui 120 bilhões de parâmetros totais, com apenas 12 bilhões de parâmetros ativos durante a inferência. Sua janela de contexto alcança até 256 mil tokens, permitindo o processamento de sequências muito longas. Aceita entrada em formato textual e produz saídas textuais, com suporte para diversos idiomas: inglês, francês, alemão, italiano, japonês, espanhol e chinês.

Otimizações para Desempenho

MoE latente: O Nemotron 3 Super emprega uma abordagem de MoE latente, onde especialistas operam sobre uma representação latente compartilhada antes da projeção de saídas de volta ao espaço de tokens. Essa estratégia permite que o modelo ative 4 vezes mais especialistas com o mesmo custo de inferência, possibilitando melhor especialização em estruturas semânticas sutis, abstrações de domínio ou padrões de raciocínio multi-hop.

Predição de múltiplos tokens: A capacidade de predição de múltiplos tokens (MTP) permite ao modelo prever vários tokens futuros em um único passe direto, ampliando significativamente o throughput para sequências longas de raciocínio e saídas estruturadas. Para planejamento, geração de trajetórias, raciocínio em cadeia estendido ou geração de código, o MTP reduz latência e melhora a responsividade dos agentes.

Para aprofundar-se na arquitetura e metodologia de treinamento do Nemotron 3 Super, consulte o artigo de apresentação completo: Introducing Nemotron 3 Super: an Open Hybrid Mamba Transformer MoE for Agentic Reasoning.

Casos de Uso do NVIDIA Nemotron 3 Super

O Nemotron 3 Super viabiliza diversos cenários de aplicação em diferentes segmentos industriais:
- Desenvolvimento de Software: Assistência em tarefas como resumo de código e análise de complexidade.
- Finanças: Aceleração de processamento de empréstimos através de extração de dados, análise de padrões de renda e detecção de operações fraudulentas, reduzindo ciclos operacionais e riscos associados.
- Segurança Cibernética: Triagem de incidentes, análise aprofundada de malware e busca proativa de ameaças de segurança.
- Busca: Compreensão da intenção do usuário para ativar os agentes apropriados.
- Varejo: Otimização de gerenciamento de inventário e aprimoramento de serviço em loja com recomendações de produtos personalizadas em tempo real.
- Fluxos de Trabalho Multi-Agentes: Orquestração de agentes específicos para tarefas — planejamento, uso de ferramentas, verificação e execução de domínio — para automatizar processos de negócio complexos e ponta a ponta.
Primeiros Passos com o Nemotron 3 Super

Testando via Console

Para experimentar o NVIDIA Nemotron 3 Super no Amazon Bedrock, siga os passos abaixo:
1. Acesse a console do Amazon Bedrock e selecione “Chat/Text playground” no menu à esquerda, sob a seção “Test”.
2. Clique em “Select model” no canto superior esquerdo da área de teste.
3. Na lista de categorias, escolha “NVIDIA” e então selecione “NVIDIA Nemotron 3 Super”.
4. Clique em “Apply” para carregar o modelo.
Após completar esses passos, você terá acesso imediato ao modelo para experimentação. Para demonstrar todo o potencial do Nemotron 3 Super, é possível apresentar-lhe desafios de engenharia complexos que exigem raciocínio sistêmico. Modelos com capacidades avançadas de raciocínio se destacam em “pensamento em nível de sistema”, onde precisam equilibrar trade-offs arquiteturais, lidar com concorrência e gerenciar estado distribuído.

Um exemplo prático seria solicitar ao modelo que projete um serviço de limitação de taxa distribuído globalmente: “Design a distributed rate-limiting service in Python that must support 100,000 requests per second across multiple geographic regions. 1. Provide a high-level architectural strategy (e.g., Token Bucket vs. Fixed Window) and justify your choice for a global scale. 2. Write a thread-safe implementation using Redis as the backing store. 3. Address the ‘race condition’ problem when multiple instances update the same counter. 4. Include a pytest suite that simulates network latency between the app and Redis.”

Esse tipo de solicitação requer que o modelo funcione como um engenheiro sênior de sistemas distribuídos — raciocinando sobre trade-offs, produzindo código thread-safe, antecipando modos de falha e validando tudo com testes realistas, tudo em uma resposta coerente e única.

Acesso Programático via CLI e SDKs

O modelo pode ser acessado programaticamente através da API usando o identificador nvidia.nemotron-super-3-120b. O Nemotron 3 Super suporta tanto as APIs InvokeModel quanto Converse através da Interface de Linha de Comando da AWS (AWS CLI) e SDKs da AWS, com o mesmo identificador de modelo. Adicionalmente, o modelo é compatível com a API OpenAI do Amazon Bedrock.

Invocação via AWS CLI

Para invocar o modelo diretamente do terminal usando a Interface de Linha de Comando da AWS (AWS CLI) e a API InvokeModel, execute o comando abaixo:
```
aws bedrock-runtime invoke-model \
  --model-id nvidia.nemotron-super-3-120b \
  --region us-west-2 \
  --body '{"messages": [{"role": "user", "content": "Type_Your_Prompt_Here"}], "max_tokens": 512, "temperature": 0.5, "top_p": 0.9}' \
  --cli-binary-format raw-in-base64-out \
  invoke-model-output.txt
```
Invocação via AWS SDK para Python (Boto3)

Para invocar o modelo através do AWS SDK para Python (Boto3), utilizando a API Converse, utilize o seguinte script para enviar um prompt ao modelo:
```
import boto3
from botocore.exceptions import ClientError

# Create a Bedrock Runtime client in the AWS Region you want to use.
client = boto3.client("bedrock-runtime", region_name="us-west-2")

# Set the model ID
model_id = "nvidia.nemotron-super-3-120b"

# Start a conversation with the user message.
user_message = "Type_Your_Prompt_Here"
conversation = [
    {
        "role": "user",
        "content": [{"text": user_message}],
    }
]

try:
    # Send the message to the model using a basic inference configuration.
    response = client.converse(
        modelId=model_id,
        messages=conversation,
        inferenceConfig={"maxTokens": 512, "temperature": 0.5, "topP": 0.9},
    )
    # Extract and print the response text.
    response_text = response["output"]["message"]["content"][0]["text"]
    print(response_text)
except (ClientError, Exception) as e:
    print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}")
    exit(1)
```
Invocação via OpenAI SDK

Para invocar o modelo através do endpoint compatível com OpenAI do Amazon Bedrock utilizando o SDK OpenAI, proceda conforme indicado abaixo:
```
# Import OpenAI SDK
from openai import OpenAI

# Set environment variables
os.environ["OPENAI_API_KEY"] = ""
os.environ["OPENAI_BASE_URL"] = "https://bedrock-runtime..amazon.com/openai/v1"

# Set the model ID
model_id = "nvidia.nemotron-super-3-120b"

# Set prompts
system_prompt = "Type_Your_System_Prompt_Here"
user_message = "Type_Your_User_Prompt_Here"

# Use ChatCompletionsAPI
response = client.chat.completions.create(
    model=model_id,
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_message}
    ],
    temperature=0,
    max_completion_tokens=1000
)

# Extract and print the response text
print(response.choices[0].message.content)
```
Próximos Passos

O NVIDIA Nemotron 3 Super no Amazon Bedrock abre possibilidades significativas para organizações que desejam construir a próxima geração de aplicações agentos com IA. Ao unir a arquitetura avançada do Nemotron 3 Super — com seu modelo MoE híbrido Transformer-Mamba e MoE latente — à infraestrutura completamente gerenciada e serverless do Bedrock, as organizações conseguem implantar aplicações sofisticadas com raciocínio elevado em escala, sem a sobrecarga de gerenciamento de backend.

Está pronto para explorar as possibilidades? Experimente agora: acesse a Console do Amazon Bedrock para testar o NVIDIA Nemotron 3 Super no playground de modelos. Para integração programática, explore o SDK da AWS e incorpore o Nemotron 3 Super em seus pipelines existentes de IA generativa.

Fonte

Run NVIDIA Nemotron 3 Super on Amazon Bedrock (https://aws.amazon.com/blogs/machine-learning/run-nvidia-nemotron-3-super-on-amazon-bedrock/)
March 20, 2026
V-RAG: revolucionando a produção de vídeos com IA através de Geração Aumentada por Recuperação
Transformação na geração de vídeos com IA

Um dos desenvolvimentos mais significativos em IA generativa é a capacidade de gerar vídeos através de tecnologia de aprendizado profundo. Antes da inteligência artificial, a produção de conteúdo de vídeo dinâmico exigia recursos extensivos, expertise técnica e esforço manual considerável. Hoje, modelos de IA conseguem gerar vídeos a partir de instruções simples, mas as organizações ainda enfrentam desafios reais, como resultados imprevisíveis e falta de controle granular sobre o resultado final.

A abordagem que a AWS está apresentando, chamada Video Retrieval-Augmented Generation (V-RAG), surge como uma estratégia promissora para melhorar significativamente a criação de conteúdo de vídeo. Ao combinar técnicas de geração aumentada por recuperação com modelos avançados de IA para vídeo, V-RAG oferece uma solução eficiente e confiável para organizações que buscam gerar vídeos de forma escalável e controlada.

Entendendo a geração de vídeos com IA

A geração de vídeo com IA representa uma fronteira transformadora na criação de conteúdo digital, permitindo a produção automatizada de narrativas visuais dinâmicas sem a necessidade de processos tradicionais de filmagem ou animação. Utilizando arquiteturas de aprendizado profundo, estes sistemas conseguem sintetizar sequências de vídeo realistas ou estilizadas, analisando padrões em conjuntos massivos de dados de treinamento para renderizar histórias visuais coerentes.

Diferentemente da produção de vídeo convencional, que demanda câmeras, atores e extenso trabalho de pós-produção, a geração por IA cria conteúdo inteiramente por processos computacionais. Indivíduos e organizações podem usar esta tecnologia para produzir conteúdo visual com mínima expertise técnica, reduzindo drasticamente o tempo, recursos e habilidades especializadas tradicionalmente necessárias.

Conforme estes modelos continuam evoluindo, prometem remodelar fundamentalmente como histórias visuais são concebidas, produzidas e compartilhadas — abrangendo indústrias que vão desde entretenimento e marketing até educação e comunicação institucional.

Capacidades principais na criação de vídeos

Geração de vídeo a partir de texto

A tecnologia de text-to-video cria conteúdo de vídeo dinâmico a partir de prompts narrativos ou temáticos em linguagem natural. Este método interpreta descrições textuais e as transforma em sequências visuais coerentes que seguem a narrativa especificada. Embora prompts em texto guiem efetivamente o tema geral e a storyline, às vezes carecem de precisão ao capturar detalhes visuais muito específicos.

A geração de texto para vídeo funciona como a base da criação de vídeo com IA, onde usuários conseguem gerar conteúdo baseado unicamente em linguagem descritiva. Porém, existem limitações inerentes quando se depende exclusivamente de descrições textuais: modelos podem ignorar partes cruciais do prompt ou interpretá-lo diferentemente da intenção original.

Personalizando a geração de vídeos

O prompt em texto tem seus limites. Há controle inerentemente limitado quando se depende apenas de descrições textuais, pois o modelo pode negligenciar elementos cruciais ou interpretá-los de forma distinta da sua intenção. Certos conceitos visuais são intrinsecamente difíceis de explicar apenas em palavras, além disso, há o limite de tokens do modelo que restringe o nível de detalhe das suas instruções.

É neste cenário que a customização mais robusta se torna inestimável. Usuários conseguem utilizar ferramentas de personalização avançadas para especificar numerosos parâmetros além daquilo que texto pode comunicar eficientemente — como estilo, atmosfera e estética visual complexa. Estes controles ajudam a superar as limitações do prompt textual fornecendo mecanismos diretos de influência sobre o resultado. Sem estas capacidades, criadores dependem que o modelo interprete corretamente suas intenções em vez de dirigir ativamente o processo criativo.

A customização preenche a lacuna entre geração vaga e controle visual preciso, tornando ferramentas de vídeo com IA verdadeiramente úteis para aplicações profissionais.

Ajuste fino de modelos

O fine-tuning adapta modelos pré-treinados de geração de vídeo para domínios específicos, estilos ou casos de uso particulares. Este processo permite que organizações criem geradores de vídeo especializados que se destacam em tarefas específicas — seja produzindo demonstrações de produtos com branding consistente, gerando conteúdo educacional médico ou criando vídeos em um estilo artístico distintivo.

O fine-tuning típico envolve retrainamento adicional de modelos existentes em datasets cuidadosamente curados que representam o domínio alvo, permitindo ao modelo aprender padrões visuais únicos, movimentos e elementos estilísticos necessários para aplicações especializadas. No entanto, o ajuste fino de modelos de geração de vídeo apresenta desafios significativos.

O obstáculo fundamental começa com a aquisição de dados. Dados de vídeo de alta qualidade adequados para treinamento são tanto caros quanto difíceis de obter. Organizações precisam de conteúdo diverso, bem-rotulado em formato específico, cobrindo casos de uso particulares enquanto atendem padrões de qualidade técnica. As demandas computacionais são substanciais — um único ciclo de fine-tuning pode requerer múltiplas GPUs de alto desempenho operando continuamente, e retreinamento para incorporar novas capacidades multiplica estes custos a cada iteração.

Mesmo com dados perfeitos e recursos computacionais ilimitados, o sucesso permanece incerto devido à natureza interconectada de elementos de vídeo como coerência, precisão física, consistência de iluminação e persistência de objetos. Melhorias em uma área frequentemente levam a degradação inesperada em outras, criando desafios de otimização complexos resistentes a soluções simples.

Geração de vídeo a partir de imagem

A geração image-to-video complementa abordagens baseadas em texto ao oferecer controle visual adicional. Utilizando uma imagem de entrada como referência, usuários conseguem garantir que detalhes específicos — como cor, estilo e outros atributos de objetos — sejam representados com precisão no vídeo gerado. Por exemplo, se um usuário deseja apresentar uma bolsa vermelha específica em seu vídeo, fornecer uma imagem daquela bolsa garante fidelidade visual que descrições em texto sozinhas talvez não conseguissem alcançar.

Esta técnica mantém consistência e melhora a aderência ao prompt através de conditioning, ao mesmo tempo em que possibilita movimento dinâmico e integração dentro de um contexto narrativo mais amplo. A geração image-to-video não requer nenhum fine-tuning, funcionando imediatamente com modelos existentes.

V-RAG: uma abordagem efetiva para customização de vídeos

Video Retrieval-Augmented Generation (V-RAG) expande a tecnologia de image-to-video para ampliar as capacidades de customização de vídeos. Enquanto métodos tradicionais de image-to-video convertem uma única imagem de referência em movimento, V-RAG expande esta capacidade ao recuperar e incorporar uma imagem relevante de um banco de dados para alimentar a geração de vídeo. Esta abordagem oferece diversas capacidades sem requerer nenhum treinamento ou retreinamento de modelos.

Organizações conseguem ingerir suas coleções de imagens em um banco de dados vetorial, consultá-lo e alimentar sua saída a um modelo de geração de vídeo existente, começando a produzir conteúdo customizado imediatamente. A eficiência de V-RAG provém do fato de requerer apenas imagens estáticas, que são geralmente muito mais disponíveis do que dados de vídeo para treinamento. Estas imagens podem ser adicionadas ao banco de dados vetorial dinamicamente, ficando instantaneamente disponíveis para a próxima tarefa de geração sem atrasos computacionais.

Cada vídeo gerado através deste processo mantém rastreabilidade clara até suas imagens de origem, criando um registro auditável que realça capacidades de verificação e debugging. O sistema ancora as saídas de vídeo em imagética de referência específica, projetado para ajudar a reduzir riscos de alucinação e gerenciar custos computacionais. Organizações conseguem manter bases de conhecimento visual separadas para diferentes departamentos ou casos de uso, simplificando conformidade, já que todos os materiais de origem podem ser completamente avaliados antes de entrarem no sistema.

Evolução contínua de V-RAG

V-RAG não representa uma tecnologia fixa, mas um framework em evolução que continuará a se expandir conforme as capacidades de IA avançam. Embora implementações atuais utilizem primariamente bancos de dados de imagens, a abordagem fundamental de augmentação por recuperação é agnóstica quanto à modalidade. Conforme modelos de IA multimodal amadurecem, sistemas V-RAG incorporarão naturalmente amostras de áudio, snippets de vídeo e modelos 3D como pontos de referência durante a geração.

Iterações futuras provavelmente suportarão a síntese de experiências audiovisuais completas, gerando vídeos com fala perfeitamente sincronizada, sons ambientais realistas e pontuações musicais customizadas baseadas em padrões de áudio recuperados. Esta flexibilidade posiciona V-RAG como um paradigma fundacional em vez de uma implementação específica, permitindo adaptação paralela aos avanços mais amplos em IA enquanto mantém seus benefícios centrais de rastreabilidade, eficiência e alucinação reduzida.

A visão final se estende além mesmo de conteúdo audiovisual para potencialmente incorporar elementos interativos, criando um sistema de geração multimodal abrangente capaz de produzir saídas envolventes enquanto mantém fundamentação em material de referência confiável.

Benefícios-chave de V-RAG

Gerar vídeos usando imagens recuperadas através de V-RAG oferece benefícios significativos como precisão aumentada, relevância e compreensão contextual. Esta abordagem ancora conteúdo gerado em uma base de conhecimento específica para guiar a criação de vídeos. Isto reduz alucinação e garante que o vídeo se alinhe com informações da fonte de imagem, tornando particularmente útil para formatos educacionais, documentários ou vídeos explicativos.

Os benefícios-chave do uso de V-RAG com imagens incluem:
- Precisão factual — Garante que o conteúdo de vídeo gerado esteja fundamentado em informações reais, reduzindo a probabilidade de visuais imprecisos ou enganosos.
- Relevância contextual — Recupera imagens altamente relevantes para o tópico ou consulta fornecida, levando a uma narrativa de vídeo mais coerente e focada.
- Geração dinâmica de conteúdo — Permite criação flexível de vídeos ao selecionar e montar dinamicamente imagens baseado em entrada do usuário ou requisitos em mudança.
- Redução de tempo de desenvolvimento — Usando uma base de conhecimento pré-existente para cortar o tempo necessário para reunir e curar ativos visuais para criação de vídeo.
- Conteúdo personalizado — Personaliza vídeos para necessidades de usuários individuais, gerando conteúdo projetado para ser relevante e envolvente.
- Escalabilidade — Projetado para escalar ao ingerir imagens adicionais no banco de dados vetorial.
Aplicações práticas de V-RAG

As aplicações práticas de V-RAG são vastas e variadas. Na educação, V-RAG consegue criar automaticamente vídeos instrucionais ao recuperar imagens relevantes de uma base de conhecimento temático. Para conteúdo personalizado, V-RAG consegue adaptar conteúdo de vídeo para usuários individuais ao recuperar imagens baseado em seus interesses específicos. No marketing, V-RAG consegue criar anúncios de vídeo direcionados ao recuperar imagens que se alinham com demografias específicas ou características de produtos.

Estas aplicações demonstram o potencial de V-RAG como ferramenta versátil para produção de conteúdo audiovisual em diversos cenários.

Perspectivas futuras

Conforme a tecnologia de IA continua evoluindo, o framework flexível de V-RAG o posiciona para incorporar novas modalidades e capacidades, desde integração avançada de áudio até elementos interativos. A implementação da AWS demonstra como organizações conseguem começar a usar esta tecnologia através de serviços de nuvem existentes, tornando a geração de vídeo com IA acessível para um escopo mais amplo de usuários.

Olhando para frente, o impacto de V-RAG na criação de conteúdo de vídeo provavelmente se estenderá muito além de suas aplicações atuais em educação e marketing. Conforme a tecnologia amadurece, tem potencial para tornar a produção de vídeo acessível enquanto sustenta qualidade, precisão e capacidades de customização. Esta abordagem oferece um caminho promissor para geração de vídeos com IA, capacitando organizações a criar conteúdo visual compelling.

Recursos adicionais

Para organizações interessadas em explorar V-RAG e tecnologias relacionadas, recursos adicionais estão disponíveis:
- Gerando vídeos com Amazon Nova Reel — Documentação sobre as capacidades de geração de vídeo.
- Amazon Nova Reel — Informações sobre o modelo de geração de vídeo.
- Amazon OpenSearch Service — Serviço para gerenciar bancos de dados vetoriais e recuperação.
Fonte

Introducing V-RAG: revolutionizing AI-powered video production with Retrieval Augmented Generation (https://aws.amazon.com/blogs/machine-learning/introducing-v-rag-revolutionizing-ai-powered-video-production-with-retrieval-augmented-generation/)
March 20, 2026
Métricas Aprimoradas para Endpoints do Amazon SageMaker AI: Visibilidade Mais Profunda para Melhor Performance
Monitoramento Granular de Modelos em Produção

Executar modelos de aprendizado de máquina em ambiente produtivo vai muito além de simplesmente garantir infraestrutura resiliente e escalabilidade eficiente. É preciso manter visibilidade contínua sobre o desempenho e a utilização de recursos. Quando a latência aumenta, invocações falham ou recursos ficam sobrecarregados, é necessário diagnosticar e resolver os problemas rapidamente, antes que eles impactem os clientes.

Até o momento, o Amazon SageMaker AI fornecia métricas do Amazon CloudWatch com visibilidade útil em alto nível. Porém, essas eram métricas agregadas — combinando dados de todas as instâncias e containers. Embora adequadas para monitoramento geral de saúde, essas métricas agregadas obscureciam detalhes de instâncias e containers individuais, dificultando a identificação de gargalos, otimização de recursos e resolução de problemas.

O Que Mudou: Métricas Aprimoradas

O SageMaker AI agora oferece métricas aprimoradas com frequência de publicação configurável. Esse lançamento fornece a visibilidade granular necessária para monitorar, diagnosticar e melhorar endpoints em produção.

Com as métricas aprimoradas do SageMaker AI, é possível agora investigar detalhes em nível de container e instância, oferecendo capacidades como:
- Visualizar métricas de cópias específicas de modelos. Quando múltiplas cópias de modelos são implantadas em um endpoint do SageMaker AI usando Inference Components, é útil visualizar métricas por cópia de modelo, como requisições simultâneas, utilização de GPU e utilização de CPU, para diagnosticar problemas e entender os padrões de tráfego de workloads em produção.
- Calcular o custo de cada modelo. Quando múltiplos modelos compartilham a mesma infraestrutura, calcular o custo real por modelo pode ser complexo. Com métricas aprimoradas, agora é possível calcular e associar custo por modelo rastreando a alocação de GPU em nível de componente de inferência.
Categorias de Métricas Aprimoradas

As métricas aprimoradas introduzem duas categorias com múltiplos níveis de granularidade:

Métricas de Utilização de Recursos EC2

Rastreiam consumo de CPU, GPU e memória em nível de instância e container.

Métricas de Invocação

Monitoram padrões de requisição, erros, latência e concorrência com dimensões precisas.

Cada categoria oferece diferentes níveis de visibilidade dependendo da configuração do endpoint.

Métricas em Nível de Instância

Todos os endpoints do SageMaker AI agora têm acesso a métricas em nível de instância, fornecendo visibilidade do que acontece em cada instância Amazon Elastic Compute Cloud (Amazon EC2) no endpoint.

Utilização de Recursos

Rastreie utilização de CPU, consumo de memória e utilização e consumo de memória por GPU em cada host. Quando um problema ocorre, é possível identificar imediatamente qual instância específica precisa de atenção. Para instâncias baseadas em aceleradores, você verá métricas de utilização para cada acelerador individual.

Métricas de Invocação

Monitore padrões de requisição, erros e latência investigando até o nível de instância. Acompanhe invocações, erros 4XX/5XX, latência do modelo e latência de overhead com dimensões precisas que ajudam a identificar exatamente qual instância experimentou problemas. Essas métricas ajudam a diagnosticar distribuição desigual de tráfego, identificar instâncias propensas a erros e correlacionar problemas de performance com recursos específicos.

Métricas em Nível de Container

Se você usa Inference Components para hospedar múltiplos modelos em um único endpoint, agora tem visibilidade em nível de container.

Utilização de Recursos

Monitore consumo de recursos por container. Visualize utilização de CPU, memória, GPU e consumo de memória de GPU para cada cópia de modelo. Essa visibilidade ajuda a entender quais componentes de inferência estão consumindo recursos, manter alocação justa em cenários multi-tenant e identificar containers com problemas de performance. Essas métricas detalhadas incluem dimensões para InferenceComponentName (Nome do Componente de Inferência) e ContainerId (ID do Container).

Métricas de Invocação

Rastreie padrões de requisição, erros e latência em nível de container. Monitore invocações, erros 4XX/5XX, latência do modelo e latência de overhead com dimensões precisas que ajudam a identificar exatamente onde os problemas ocorreram.

Como Configurar Métricas Aprimoradas

Ativar métricas aprimoradas é simples: adicione um parâmetro ao criar a configuração do endpoint:
```
response = sagemaker_client.create_endpoint_config(
    EndpointConfigName='my-config',
    ProductionVariants=[{
        'VariantName': 'AllTraffic',
        'ModelName': 'my-model',
        'InstanceType': 'ml.g6.12xlarge',
        'InitialInstanceCount': 2
    }],
    MetricsConfig={
        'EnableEnhancedMetrics': True,
        'MetricsPublishFrequencyInSeconds': 10,  # Default 60s
    }
)
```
Escolhendo a Frequência de Publicação

Após ativar métricas aprimoradas, configure a frequência de publicação conforme suas necessidades de monitoramento:
- Resolução Padrão (60 segundos): A frequência padrão oferece visibilidade detalhada para a maioria dos workloads em produção. É suficiente para planejamento de capacidade, resolução de problemas e otimização, mantendo custos do CloudWatch gerenciáveis.
- Alta Resolução (10 ou 30 segundos): Para aplicações críticas que exigem monitoramento quase em tempo real, ative publicação a cada 10 segundos. Isso é valioso para auto-scaling agressivo, padrões de tráfego altamente variáveis ou troubleshooting profundo.
Casos de Uso Práticos

As métricas aprimoradas oferecem valor comercial mensurável em cenários comuns. Exemplos completos estão disponíveis em um notebook.

Rastreamento em Tempo Real de Utilização de GPU em Inference Components

Ao executar múltiplos modelos em infraestrutura compartilhada usando Inference Components, entender a alocação e utilização de GPU é crítico para otimização de custos e ajuste de performance.

Com métricas aprimoradas, é possível consultar alocação de GPU por componente de inferência:
```
response = cloudwatch.get_metric_data(
    MetricDataQueries=[
        {
            'Id': 'm1',
            'Expression': 'SEARCH(\'{/aws/sagemaker/InferenceComponents,InferenceComponentName,GpuId} MetricName="GPUUtilizationNormalized" InferenceComponentName="IC-my-model"\', \'SampleCount\', 10)'
        },
        {
            'Id': 'e1',
            'Expression': 'SUM(m1)'  # Returns GPU count
        }
    ],
    StartTime=start_time,
    EndTime=end_time
)
```
Essa consulta usa a dimensão GpuId para contar GPUs individuais alocadas a cada componente de inferência. Rastreando a estatística SampleCount, você obtém uma contagem precisa de GPUs em uso para um Inference Component específico, essencial para:
- Validar que alocação de recursos corresponde à sua configuração
- Detectar quando componentes de inferência fazem scale up ou down
- Calcular custos por GPU para modelos de chargeback
Atribuição de Custo por Modelo em Implantações Multi-Modelo

Uma das capacidades mais solicitadas é entender o custo real de cada modelo quando múltiplos modelos compartilham a mesma infraestrutura de endpoint. Métricas aprimoradas tornam isso possível através do rastreamento de GPU em nível de container.

Eis como calcular custo cumulativo por modelo:
```
response = cloudwatch.get_metric_data(
    MetricDataQueries=[
        {
            'Id': 'e1',
            'Expression': 'SEARCH(\'{/aws/sagemaker/InferenceComponents,InferenceComponentName,GpuId} MetricName="GPUUtilizationNormalized" InferenceComponentName="IC-my-model"\', \'SampleCount\', 10)'
        },
        {
            'Id': 'e2',
            'Expression': 'SUM(e1)'  # GPU count
        },
        {
            'Id': 'e3',
            'Expression': 'e2 * 5.752 / 4 / 360'  # Cost per 10s based on ml.g6.12xlarge hourly cost
        },
        {
            'Id': 'e4',
            'Expression': 'RUNNING_SUM(e3)'  # Cumulative cost
        }
    ],
    StartTime=start_time,
    EndTime=end_time
)
```
Esse cálculo:
- Conta GPUs alocadas ao componente de inferência (e2)
- Calcula custo por período de 10 segundos baseado no custo horário da instância (e3)
- Acumula custo total ao longo do tempo usando RUNNING_SUM (e4)
Por exemplo, com uma instância ml.g6.12xlarge ($5.752/hora para 4 GPUs), se seu modelo usa 4 GPUs, o custo por 10 segundos é de $0.016. O RUNNING_SUM fornece um total continuamente crescente, perfeito para dashboards e rastreamento de custos.

Monitoramento de Recursos em Nível de Cluster

Métricas aprimoradas habilitam monitoramento abrangente de cluster agregando métricas de todos os componentes de inferência em um endpoint:
```
response = cloudwatch.get_metric_data(
    MetricDataQueries=[
        {
            'Id': 'e1',
            'Expression': 'SUM(SEARCH(\'{/aws/sagemaker/InferenceComponents,EndpointName,GpuId} MetricName="GPUUtilizationNormalized" EndpointName="my-endpoint"\', \'SampleCount\', 10))'
        },
        {
            'Id': 'm2',
            'MetricStat': {
                'Metric': {
                    'Namespace': '/aws/sagemaker/Endpoints',
                    'MetricName': 'CPUUtilizationNormalized',
                    'Dimensions': [
                        {
                            'Name': 'EndpointName',
                            'Value': 'my-endpoint'
                        },
                        {
                            'Name': 'VariantName',
                            'Value': 'AllTraffic'
                        }
                    ]
                },
                'Period': 10,
                'Stat': 'SampleCount'  # Returns instance count
            }
        },
        {
            'Id': 'e2',
            'Expression': 'm2 * 4 - e1'  # Free GPUs (assuming 4 GPUs per instance)
        }
    ],
    StartTime=start_time,
    EndTime=end_time
)
```
Essa consulta oferece:
- Total de GPUs em uso em todos os componentes de inferência (e1)
- Número de instâncias no endpoint (m2)
- GPUs disponíveis para novas implantações (e2)
Essa visibilidade é crucial para planejamento de capacidade e garantir que você tenha recursos suficientes para novas implantações de modelos ou scaling de modelos existentes.

Criando Dashboards Operacionais

O notebook acompanhante demonstra como criar dashboards do CloudWatch programaticamente que combinam essas métricas:
```
from endpoint_metrics_helper import create_dashboard

create_dashboard(
    dashboard_name='my-endpoint-monitoring',
    endpoint_name='my-endpoint',
    inference_components=[
        {
            'name': 'IC-model-a',
            'label': 'MODEL_A'
        },
        {
            'name': 'IC-model-b',
            'label': 'MODEL_B'
        }
    ],
    cost_per_hour=5.752,
    region='us-east-1'
)
```
Isso cria um dashboard com:
- Utilização de recursos em nível de cluster (instâncias, GPUs usadas/não utilizadas)
- Rastreamento de custo por modelo com totais cumulativos
- Custo em tempo real por período de 10 segundos
O notebook também inclui widgets interativos para análise ad-hoc:
```
from endpoint_metrics_helper import create_metrics_widget, create_cost_widget

# Cluster metrics
create_metrics_widget('my-endpoint')

# Per-model cost analysis
create_cost_widget('IC-model-a', cost_per_hour=5.752)
```
Esses widgets oferecem seleção de intervalo de tempo (últimos 5/10/30 minutos, 1 hora ou intervalo personalizado) e exibem:
- Número de instâncias
- GPUs totais/usadas/livres
- Custo cumulativo por modelo
- Custo por período de 10 segundos
Melhores Práticas
- Comece com resolução de 60 segundos: Oferece granularidade suficiente para a maioria dos casos, mantendo custos do CloudWatch gerenciáveis. Note que apenas métricas de Utilização geram cobranças — todos os outros tipos são publicados sem custo adicional.
- Use resolução de 10 segundos seletivamente: Ative métricas de alta resolução apenas para endpoints críticos ou durante períodos de troubleshooting.
- Use dimensões estrategicamente: Utilize InferenceComponentName, ContainerId e GpuId para investigar de visualizações em nível de cluster até containers específicos.
- Crie dashboards de alocação de custos: Use expressões RUNNING_SUM para rastrear custos cumulativos por modelo para chargeback e budgeting precisos.
- Configure alarmes sobre capacidade de GPU não utilizada: Monitore a métrica de GPU não utilizada para garantir que você mantenha buffer de capacidade para scaling ou novas implantações.
- Combine com métricas de invocação: Correlacione utilização de recursos com padrões de requisição para entender a relação entre tráfego e consumo de recursos.
Conclusão

As Métricas Aprimoradas para Endpoints do Amazon SageMaker AI transformam como você monitora, melhora e opera workloads de aprendizado de máquina em produção. Ao fornecer visibilidade em nível de container com frequência de publicação configurável, você ganha a inteligência operacional necessária para:
- Atribuir custos com precisão a modelos individuais em implantações multi-tenant
- Monitorar alocação e utilização de GPU em tempo real em componentes de inferência
- Rastrear disponibilidade de recursos em nível de cluster para planejamento de capacidade
- Resolver problemas de performance com métricas granulares e precisas
A combinação de métricas detalhadas, frequência de publicação flexível e dimensões ricas permite construir soluções de monitoramento sofisticadas que crescem com suas operações de aprendizado de máquina. Seja executando um único modelo ou gerenciando dezenas de componentes de inferência em múltiplos endpoints, métricas aprimoradas oferecem a visibilidade necessária para executar IA eficientemente em escala.

Comece hoje ativando métricas aprimoradas em seus endpoints do SageMaker AI e explore o notebook acompanhante para exemplos de implementação completos e funções auxiliares reutilizáveis.

Fonte

Enhanced metrics for Amazon SageMaker AI endpoints: deeper visibility for better performance (https://aws.amazon.com/blogs/machine-learning/enhanced-metrics-for-amazon-sagemaker-ai-endpoints-deeper-visibility-for-better-performance/)
March 20, 2026
Residência de Dados com Extensões do Amazon Quick para Microsoft Teams
Conformidade com Residência de Dados em Ambientes Globais

Organizações distribuídas em múltiplas geografias enfrentam desafios significativos para manter seus dados dentro de limites específicos. Regulamentações como a Lei Geral de Proteção de Dados (LGPD) no Brasil, o Regulamento Geral de Proteção de Dados (GDPR) na Europa, leis de soberania de dados específicas de cada país e políticas de conformidade internas criam um cenário complexo que exige soluções técnicas robustas.

A Amazon Quick com extensões do Microsoft 365 oferece suporte a roteamento regional, permitindo que organizações mantenham dados em seus locais geográficos apropriados. A plataforma suporta implantações em múltiplas regiões da AWS, direcionando usuários automaticamente para recursos do Amazon Quick específicos de cada região — como agentes de chat, fluxos automatizados, bases de conhecimento e outros componentes.

Setores altamente regulados, como serviços financeiros, saúde, energia e telecomunicações, adotam esse padrão com frequência para garantir que informações sensíveis permaneçam dentro de fronteiras geográficas específicas. A integração com o Microsoft Teams oferece uma experiência contínua para usuários corporativos que já trabalham dentro do ecossistema Microsoft 365.

Visão Geral da Solução

Quando o Amazon Quick é integrado a aplicações Microsoft 365, como o Microsoft Teams, os usuários precisam se autenticar e conectar aos recursos regionais apropriados do Amazon Quick. Este processo garante que cada usuário acesse apenas os agentes de chat e recursos construídos na região AWS designada para sua localização geográfica.

A solução apresentada aqui utiliza um exemplo prático: uma organização global fictícia (MyCompany) com matriz europeia acessando o Amazon Quick na região Europa (Irlanda) e uma filial nos EUA usando a região Leste dos EUA (N. Virgínia). Uma única conta do Amazon Quick mantém agentes de chat específicos por região, cada um contendo informações corporativas localizadas.

Para implementar o roteamento regional, é necessário configurar o AWS IAM Identity Center com um emissor de token confiável para autenticação entre sistemas. Esta solução utiliza o Microsoft Entra ID para controle de acesso baseado em grupos, demonstrando como organizações podem rotear automaticamente usuários para suas regiões AWS apropriadas. A extensão do Amazon Quick para Microsoft Teams é o ponto de integração principal neste cenário.

A arquitetura integra o Microsoft Entra ID com o IAM Identity Center, automatizando o roteamento de usuários entre múltiplas regiões AWS. Ao usar a associação de grupos do Microsoft Entra ID para direcionar usuários a suas implantações regionais designadas do Amazon Quick, organizações mantêm a residência de dados dentro de limites geográficos específicos enquanto oferecem uma experiência consistente a sua força de trabalho global.

Processo de Implementação

A implementação segue uma abordagem faseada que começa com configuração no AWS Management Console e culmina na implantação de complementos regionais para os usuários. O processo envolve uma configuração única de identidade e confiança, seguida por um conjunto pequeno de etapas regionais repetidas para cada região AWS ativa.

As etapas gerais do fluxo de trabalho incluem:
- Iniciar a configuração no console do Amazon Quick e selecionar a região AWS a configurar
- Configurar a integração regional da extensão Microsoft Teams, incluindo uma função AWS Identity and Access Management (IAM) e um segredo do AWS Secrets Manager para aquela região AWS, e confiar no IAM Identity Center como um emissor de token
- Ativar a extensão no Amazon Quick para gerar o arquivo de manifesto regional
- Registrar os retornos de chamada da extensão na aplicação Microsoft Entra ID e completar o retorno de chamada de ativação para a aplicação em todas as regiões AWS
- Implantar o complemento Microsoft Teams para grupos de usuários regionais através do Microsoft Entra ID
- Mapear o complemento regional para seu agente de conhecimento designado, concedendo aos usuários acesso a dados localizados
Pré-requisitos e Configuração

Antes de começar a implementação, o ambiente AWS deve atender a requisitos específicos. Para os serviços AWS, é necessário ter uma conta do Amazon Quick ativa, o IAM Identity Center configurado e gerenciando identidades de usuários com integração SAML com Microsoft Entra ID, Secrets Manager disponível em ambas as regiões AWS alvo, e acesso IAM para criar funções e políticas.

Para o Microsoft 365, os requisitos incluem funções de Administrador Global ou Administrador de Aplicações no Microsoft Entra ID, acesso ao Centro de Administração do Microsoft 365 para implantação de aplicações, e permissões para criar e configurar aplicações corporativas no Microsoft Entra ID.

Criar Aplicação no Microsoft Entra ID

O primeiro passo estabelece a base de identidade compartilhada usada por todas as regiões AWS. Cria-se uma aplicação no Microsoft Entra ID que as extensões Microsoft 365 utilizarão para autenticar usuários contra o Amazon Quick através do IAM Identity Center.

O processo começa selecionando Registros de Aplicação e criando um novo registro com suporte apenas para contas no diretório organizacional. Após o registro, configura-se a guia de Autenticação para adicionar URLs de redirecionamento. A solução utiliza dois URLs de redirecionamento seguindo o padrão https://qbs-cell001.dp.appintegrations.[AWS_REGION].prod.plato.ai.aws.dev/auth/idc-tti/callback:
- https://qbs-cell001.dp.appintegrations.eu-west-1.prod.plato.ai.aws.dev/auth/idc-tti/callback
- https://qbs-cell001.dp.appintegrations.us-east-1.prod.plato.ai.aws.dev/auth/idc-tti/callback
O Microsoft Entra ID usa esses URLs de retorno para devolver a resposta de login do usuário ao IAM Identity Center para a região AWS correta. É essencial usar esses URLs exatos — eles são os valores reais necessários para implantações do Amazon Quick. A aplicação deve receber permissão do Microsoft Graph para User.Read, permitindo que ela faça login de usuários e leia suas informações básicas de perfil.

Criar Emissores de Token Confiáveis no IAM Identity Center

Nesta etapa, configuram-se emissores de token confiáveis no IAM Identity Center. Um emissor de token confiável é uma configuração que valida tokens emitidos pelo Microsoft Entra ID, permitindo autenticação entre sistemas para que usuários se movimentem entre Microsoft 365 e AWS sem logins repetidos.

Na configuração do emissor de token confiável, define-se a URL do emissor no formato https://login.microsoftonline.com/[SEU_ID_LOCATARIO]/v2.0 e um nome descritivo para referência organizacional. Esta configuração é aplicada a cada região AWS onde as extensões serão implantadas.

Configurar Permissões IAM e Entradas no Secrets Manager

Para cada região AWS, é necessário criar um segredo no Secrets Manager seguindo a convenção de nomenclatura [NOME_EMPRESA]/MS365/Extensions/[AWS_REGION] contendo as credenciais:
```
{ "client_id":"[SEU_CLIENT_ID]", "client_secret":"[SEU_CLIENT_SECRET]"}
```
Cria-se uma política IAM que concede acesso para ler esses segredos:
```
{ "Version": "2012-10-17", "Statement": [ { "Sid": "SecretManagerPermissions", "Effect": "Allow", "Action": [ "secretsmanager:GetSecretValue" ], "Resource": [ "[ARN_SECRET_EU_WEST_1]", "[ARN_SECRET_US_EAST_1]" ] }, { "Sid": "TokenIssuerPermissions", "Effect": "Allow", "Action": [ "sso:DescribeTrustedTokenIssuer" ], "Resource": "[ARN_SEU_TTI]" } ] }
```
A relação de confiança da função deve permitir que os principais de serviço regionais específicos do Amazon Quick assumam a função:
```
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": [ "eu-west-1.prod.appintegrations.plato.aws.internal", "us-east-1.prod.appintegrations.plato.aws.internal" ] }, "Action": "sts:AssumeRole", "Condition": {} } ] }
```
Cada vez que uma nova região AWS é ativada, é necessário criar um novo segredo no Secrets Manager e adicionar seu ARN à lista de recursos da política IAM, além de adicionar a nova região ao campo de Principal de Serviço na relação de confiança da função.

Configurar Extensões no Amazon Quick

No console do Amazon Quick, para cada região AWS, realiza-se a seguinte sequência:

Seleciona-se a região desejada (por exemplo, EU – Irlanda) e acessa-se Gerenciar Quick. Em Permissões na navegação, escolhe-se Acesso de Extensão e adiciona-se um novo acesso de extensão. Configura-se o emissor de token confiável informando seu ARN e o ID do cliente como a alegação de Audiência, que funciona como um identificador de segurança validando que o token de autenticação é utilizado apenas pela aplicação específica para a qual foi destinado.

Seleciona-se Microsoft Teams entre os tipos de extensão disponíveis e configuração com o ID de locatário Microsoft 365, atributos de segurança e configurações de autenticação. Insere-se um nome descritivo, o ID de locatário Microsoft, o ARN da função Secrets Manager e o ARN do segredo específico da região.

Ao retornar ao console do Amazon Quick, cria-se uma extensão Microsoft Teams. Ao acessar o menu de opções da extensão (três pontos), escolhe-se Instalar. Este processo cria uma aplicação corporativa no Microsoft Entra ID com URLs únicos e instruções que o Microsoft 365 Teams precisa para comunicar com os ativos AWS regionais específicos.

Repetem-se esses passos para criar uma extensão e instalar a aplicação na região us-east-1, seguindo a mesma convenção de nomenclatura com o sufixo da região AWS e usando o ARN do segredo apropriado para aquela região.

Criar Agentes de Chat Regionais

Após as aplicações regionais serem implantadas, criam-se os agentes específicos de cada região AWS que cada complemento acessará. Cada região AWS mantém seu próprio agente com bases de conhecimento localizadas.

No console do Amazon Quick de eu-west-1, na navegação, escolhe-se Agentes de Chat e Criar Agente de Chat. Cria-se um agente de chat regional em eu-west-1 com conhecimento corporativo europeu, seguindo a convenção de nomenclatura [NOME_EMPRESA]-Knowledge-Agent-eu-west-1 para facilitar gerenciamento entre múltiplas regiões.

Repete-se o processo para criar um agente de chat em us-east-1 com informações corporativas específicas dos EUA, denominado [NOME_EMPRESA]-Knowledge-Agent-us-east-1.

Implantar Aplicações Microsoft Teams

A etapa final envolve atribuir cada aplicação Microsoft Teams a seus respectivos grupos regionais. No Microsoft Teams Admin Center, acessa-se Aplicativos de Equipe, escolhe-se Gerenciar Aplicativos e filtra-se pela Amazon Quick. Seleciona-se a primeira aplicação (da região eu-west-1) e edita-se sua Disponibilidade.

É fundamental atribuir a extensão a grupos de usuários regionais específicos em vez de toda a organização. Essa implantação baseada em grupos roteia automaticamente os usuários para seus recursos corretos de conta do Amazon Quick regional.

Repete-se o mesmo processo com a aplicação Microsoft Teams da região us-east-1.

Verificar a Implementação

Após a implantação se propagar, valida-se que usuários são roteados automaticamente para o agente regional correto. Usuários europeus podem utilizar o agente MyCompany-Teams-eu-west-1, embora o complemento selecione Meu Assistente como agente de chat padrão, sendo necessário acessar as configurações (ícone de engrenagem) e escolher o agente de chat MyCompany-Knowledge-Agent-eu-west-1.

Usuários nos EUA podem utilizar o agente MyCompany-Knowledge-Agent-us-east-1, demonstrando roteamento regional bem-sucedido sem configuração manual.

Resolução de Problemas Comuns

Durante a configuração, podem surgir desafios específicos:
- Extensão do Quick não aparece no Microsoft Teams: Aguardar 24-48 horas para propagação de implantação do Microsoft 365, verificar se o usuário está no grupo Microsoft Entra ID correto e limpar o cache de complementos do Microsoft Office antes de reiniciar Teams
- Problemas com autenticação na extensão do Amazon Quick: Verificar se os URLs de redirecionamento correspondem exatamente no Microsoft Entra ID, confirmar a configuração do emissor de token confiável e validar que a relação de confiança da função IAM inclui o principal de serviço correto
- Agente incorreto listado na extensão do Amazon Quick: Verificar a associação ao grupo de usuários (deve estar apenas em um grupo regional), consultar a atribuição de manifesto para grupo no Microsoft 365 Admin Center e solicitar que o usuário faça logout e login novamente
- Lista de agentes vazia na extensão do Amazon Quick: Validar que o agente está compartilhado com usuários no console do Amazon Quick, verificar se o agente existe na mesma região AWS que a extensão e confirmar que as permissões do agente estão configuradas pelo menos como Nível de Usuário
Limpeza de Recursos

Para evitar custos contínuos, recomenda-se remover os recursos criados durante a implementação se eles não forem mais necessários.

Conclusão

A solução de extensões do Amazon Quick em múltiplas regiões para Microsoft 365 oferece capacidades de inteligência artificial em conformidade com leis regionais para força de trabalho global. A arquitetura e os passos de implementação apresentados demonstram como integrar IA corporativa com ferramentas de produtividade mantendo limites de residência de dados e conformidade. Para mais detalhes sobre assistentes com tecnologia de IA que aumentam produtividade sem troca de aplicações, consulte Acesso de Extensão. Para iniciar o uso do Amazon Quick, consulte Primeiros Passos com Amazon Quick.

Fonte

Enforce data residency with Amazon Quick extensions for Microsoft Teams (https://aws.amazon.com/blogs/machine-learning/enforce-data-residency-with-amazon-quick-extensions-for-microsoft-teams/)
March 20, 2026