AWS e NVIDIA expandem colaboração estratégica para levar IA do protótipo à produção

Inteligência Artificial na prática: além dos protótipos

A inteligência artificial está se desenvolvendo em um ritmo acelerado. No entanto, para a maioria das organizações, a verdadeira oportunidade não reside em experimentar com IA, mas em colocá-la para funcionar de verdade—em ambientes de produção onde gera resultados de negócio concretos. Isso exige construir sistemas que operem com confiabilidade, entreguem desempenho em escala e atendam aos requisitos de segurança e conformidade da organização.

Reconhecendo essa realidade, a AWS e a NVIDIA anunciaram durante a NVIDIA GTC 2026 uma colaboração expandida que combina novas integrações tecnológicas para atender à crescente demanda de computação em IA. O objetivo é capacitar clientes a construir e executar soluções de IA que realmente estejam prontas para produção.

Novidades anunciadas na NVIDIA GTC 2026

Expansão massiva de GPUs em infraestrutura em nuvem

A partir de 2026, a AWS planeja adicionar mais de 1 milhão de GPUs NVIDIA—incluindo as arquiteturas Blackwell e Rubin—distribuídas em suas regiões globais. Esta é uma demonstração do compromisso contínuo entre as duas empresas em inovação conjunta, construída ao longo de mais de 15 anos de parceria.

A AWS já oferece o mais amplo portfólio de instâncias baseadas em GPUs NVIDIA entre todos os provedores de nuvem, capacitando uma variedade diversa de cargas de trabalho em IA e aprendizado de máquina. Além disso, a AWS e a NVIDIA estão colaborando em tecnologias de rede Spectrum e outras áreas de infraestrutura para fortalecer essa oferta.

Suporte a novas aceleradoras RTX PRO Blackwell

Pela primeira vez entre os grandes provedores de nuvem, a AWS anunciou que instâncias do Amazon Elastic Compute Cloud (Amazon EC2) aceleradas por GPUs NVIDIA RTX PRO 4500 Blackwell Server Edition estarão disponíveis em breve. Essas instâncias são adequadas para uma ampla gama de workloads, incluindo análise de dados, inteligência artificial conversacional, geração de conteúdo, sistemas de recomendação, streaming de vídeo, renderização de vídeo e outras cargas gráficas.

Essas instâncias EC2 serão construídas sobre o AWS Nitro System—uma combinação de hardware dedicado e hipervisor leve que entrega praticamente todos os recursos de computação e memória do hardware hospedeiro para suas instâncias, resultando em melhor utilização de recursos e desempenho geral. O Nitro System inclui hardware, software e firmware especializados projetados para garantir que ninguém—nem mesmo equipes da AWS—possa acessar suas cargas de trabalho e dados sensíveis em IA. Além disso, o sistema suporta atualizações de firmware, correções de bugs e otimizações enquanto permanece operacional, capacidades essenciais para cargas de trabalho de IA, análise e gráficos em produção.

Otimizações para inferência de modelos de linguagem em larga escala

Aceleração de interconexão para inferência distribuída

Conforme os modelos de linguagem crescem em tamanho, a comunicação entre GPUs pode se tornar um gargalo crítico. A AWS anunciou suporte para a NVIDIA Inference Xfer Library (NIXL) integrada ao AWS Elastic Fabric Adapter (EFA) para acelerar a inferência distribuída de Modelos de Linguagem de Grande Escala (LLM) em Amazon EC2, funcionando tanto com GPUs NVIDIA quanto com aceleradoras AWS Trainium.

Essa integração permite sobreposição eficiente de comunicação e computação, minimizando latência e maximizando utilização de GPU. O resultado é movimento de dados KV-cache (Key-Value cache) de alta taxa de transferência e baixa latência entre nós GPU que executam geração de tokens e recursos de memória distribuída que armazenam o estado do KV-cache.

Uma vantagem adicional: oferece flexibilidade para construir clusters de inferência usando qualquer combinação de instâncias EC2 habilitadas para EFA com GPU e Trainium. A integração NIXL com EFA funciona nativamente com frameworks populares como NVIDIA Dynamo, vLLM e SGLang, resultando em latência inter-token reduzida e utilização de memória KV-cache mais eficiente.

Aceleração de análise de dados com Apache Spark

Engenheiros de dados e cientistas de dados frequentemente enfrentam pipelines de processamento de dados que duram horas, ralentando iteração em modelos de IA/ML e geração de inteligência empresarial. A AWS e a NVIDIA estão entregando ganhos significativos de desempenho: Apache Spark 3x mais rápido usando Amazon EMR no Amazon Elastic Kubernetes Service (Amazon EKS) com instâncias G7e, alimentadas pelas GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition.

Este desempenho é resultado de colaboração de engenharia conjunta entre AWS e NVIDIA, otimizando análise acelerada por GPU através da combinação de Amazon EMR no EKS com a arquitetura RTX PRO 6000. Com essas instâncias, data engineers e data scientists conseguem reduzir significativamente o tempo de processamento de análises em larga escala, mantendo compatibilidade total com aplicações Spark existentes—transformando horas de espera em ciclos de análise muito mais rápidos.

Expansão de modelos NVIDIA Nemotron no Amazon Bedrock

Fine-tuning com aprendizado por reforço

Em breve, desenvolvedores poderão executar fine-tuning de modelos NVIDIA Nemotron diretamente no Amazon Bedrock usando Reinforcement Fine-Tuning (RFT). Esta capacidade é significativa para equipes que precisam alinhar o comportamento do modelo a domínios específicos—seja legal, healthcare, finanças ou qualquer outro campo especializado.

O diferencial: ao contrário de apenas aumentar o conhecimento do modelo, o reinforcement fine-tuning permite moldar como o modelo raciocina e responde. E como isso executa nativamente no Amazon Bedrock, não há overhead de infraestrutura. Você define a tarefa, fornece o sinal de feedback, e o Bedrock faz o resto. Para mais detalhes, consulte a documentação sobre Reinforcement Fine-Tuning in Amazon Bedrock.

Nemotron 3 Super para fluxos multi-agente

O NVIDIA Nemotron 3 Super—um modelo híbrido Mixture of Experts construído para workloads multi-agente e raciocínio estendido—estará disponível em breve no Amazon Bedrock. Projetado para capacitar agentes de IA a manter precisão em fluxos de trabalho complexos e com múltiplas etapas, ele alimenta casos de uso em finanças, cibersegurança, varejo e desenvolvimento de software—entregando inferência rápida e eficiente em custo através de uma API totalmente gerenciada.

Eficiência energética e sustentabilidade

Conforme cargas de trabalho em IA escalam, a performance por watt não é apenas uma métrica de sustentabilidade—é uma vantagem competitiva. Durante uma sessão da NVIDIA GTC, líderes da AWS discutiram como IA está transformando energia e infraestrutura empresarial em escala, desde data centers como participantes ativos na rede elétrica até IA como motor de eficiência empresarial. A infraestrutura AWS demonstra ser 4,1x mais eficiente em energia do que data centers on-premises.

Uma pilha completa e integrada

O que torna esses anúncios realmente interessantes não é nenhuma capacidade isolada—é o que representam em conjunto. Quinze anos de parceria entre AWS e NVIDIA produziram uma pilha completa de infraestrutura de IA otimizada de ponta a ponta: desde a GPU, passando pela rede, até à camada de serviços gerenciados. Não é necessário montar tudo separadamente. Está pronto para funcionar.

Para quem está acompanhando os desenvolvimentos em IA e infraestrutura em nuvem, essas integrações representam um passo importante na democratização do acesso a computação de alta performance para casos de uso reais em produção. A presença da AWS na NVIDIA GTC 2026 ofereceu oportunidade de explorar demos ao vivo e sessões adicionais sobre as tecnologias anunciadas.

Fonte

AWS and NVIDIA deepen strategic collaboration to accelerate AI from pilot to production (https://aws.amazon.com/blogs/machine-learning/aws-and-nvidia-deepen-strategic-collaboration-to-accelerate-ai-from-pilot-to-production/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *