Nova funcionalidade simplifica o gerenciamento de dados de auditoria
No final de dezembro de 2025, a AWS anunciou uma novidade que promete facilitar a vida de quem trabalha com monitoramento e conformidade na nuvem. O lançamento traz uma forma mais simples de importar dados do CloudTrail Lake — serviço de auditoria da AWS — diretamente para o Amazon CloudWatch, a plataforma de gerenciamento e análise de dados da empresa.
Essa integração permite que organizações consolidem dados operacionais, de segurança e conformidade em um único local, sem precisar lidar com procedimentos complexos. É especialmente útil para quem mantém múltiplas fontes de dados, incluindo sistemas de terceiros.
Como funciona a importação simplificada
O processo agora é bastante direto. Os usuários precisam apenas especificar o armazenamento de eventos do CloudTrail Lake — conhecido como Event Data Store (EDS) — e escolher o intervalo de datas desejado. A partir daí, os dados históricos são automaticamente importados para o CloudWatch.
Múltiplas formas de acesso
A AWS disponibiliza essa funcionalidade através de três interfaces diferentes:
Console web da AWS
Interface de linha de comando (CLI)
Kits de desenvolvimento (SDK)
Essa variedade garante que diferentes equipes — desde administradores que preferem interfaces gráficas até desenvolvedores que trabalham via automação — possam utilizar a funcionalidade conforme sua necessidade.
Aspectos financeiros e cobertura geográfica
Um dos pontos positivos é que a importação simplificada de dados não gera custos adicionais. No entanto, é importante considerar que o armazenamento e processamento dos dados no CloudWatch segue a política de preços padrão, baseada no modelo de logs personalizados da plataforma.
O recurso está disponível em regiões específicas da AWS. Para conhecer a cobertura completa e os detalhes de implementação, é recomendado consultar a documentação do Amazon CloudWatch.
O que muda na prática
Antes dessa simplificação, consolidar dados de auditoria em um único lugar exigia processos mais trabalhosos e, em muitos casos, scripts customizados. Agora, com apenas alguns passos, equipes de operações, segurança e conformidade conseguem ter uma visão unificada de todos os eventos importantes em seus ambientes AWS.
Essa melhoria se alinha com a tendência de consolidação de ferramentas de monitoramento, reduzindo a complexidade operacional e acelerando a capacidade de análise de segurança.
A partir de dezembro de 2025, a AWS WAF (Firewall de Aplicações Web) passou a estar disponível na região Ásia-Pacífico (Nova Zelândia). Esta expansão reforça o compromisso da empresa em oferecer seus serviços de segurança em diferentes localizações geográficas, permitindo que organizações atuantes naquela região acessem a solução diretamente de uma infraestrutura mais próxima.
O que é o AWS WAF e como funciona
O AWS WAF é um firewall especializado em proteção de aplicações web. Seu propósito é ajudar organizações a defender seus recursos de aplicações contra ameaças comuns, como explorações web conhecidas e atividades maliciosas de bots. Essas ameaças podem prejudicar a disponibilidade do serviço, comprometer a segurança dos dados ou gerar consumo excessivo de recursos.
Um dos principais diferenciais do serviço é a capacidade de controle granular de acesso ao conteúdo. Baseado em condições que o cliente especifica, o recurso protegido pode responder às requisições de diferentes formas: fornecendo o conteúdo solicitado normalmente, retornando um status HTTP 403 (Acesso Proibido), ou retornando uma resposta customizada definida pelo usuário.
Condições e configurações de acesso
As regras do AWS WAF podem ser baseadas em diversos critérios. Alguns exemplos incluem o endereço IP de origem das requisições ou valores específicos presentes em strings de consulta. Essa flexibilidade permite que cada organização configure uma política de proteção alinhada às suas necessidades específicas e ao perfil de seu tráfego.
Próximos passos
Para visualizar a lista completa de regiões onde o AWS WAF está disponível, acesse a tabela de regiões AWS. Organizações que desejam conhecer mais detalhes sobre o serviço podem consultar a página oficial do AWS WAF. Para informações sobre modelos de precificação e custos, a página de preços do AWS WAF oferece detalhes completos.
Organizações enfrentam um dilema crescente: clientes exigem respostas ágeis, mas os times de suporte trabalham sobrecarregados. Documentação de produtos e artigos em bases de conhecimento frequentemente exigem que usuários vasculhem centenas de páginas, enquanto agentes de atendimento precisam processar dezenas de consultas diárias para localizar informações específicas.
A AWS demonstra como resolver esse gargalo através da construção de um assistente de website inteligente, combinando Amazon Bedrock com Amazon Bedrock Knowledge Bases. A solução beneficia tanto equipes internas quanto clientes externos, oferecendo:
Respostas instantâneas e relevantes aos clientes, eliminando buscas manuais por documentação
Sistema potente de recuperação de informações para agentes de suporte, reduzindo tempo de resolução
Atendimento automatizado disponível 24 horas por dia, 7 dias por semana
Visão Geral da Solução
A arquitetura emprega Recuperação Aumentada por Geração (Retrieval-Augmented Generation — RAG) para recuperar dados relevantes de uma base de conhecimento e retorná-los ao usuário conforme seu nível de acesso. Os componentes principais são:
Amazon Bedrock Knowledge Bases
O conteúdo do website corporativo é rastreado e armazenado na base de conhecimento. Documentos de um bucket Amazon Simple Storage Service (Amazon S3), como manuais e guias de resolução de problemas, também são indexados. A plataforma permite configurar múltiplas fontes de dados e aplicar filtros para diferenciar informações internas de públicas, protegendo dados sensatos através de controles avançados de segurança.
Modelos de Linguagem Gerenciados do Amazon Bedrock
Um grande modelo de linguagem (LLM) do Amazon Bedrock gera respostas com inteligência artificial para perguntas do usuário.
Amazon Bedrock Knowledge Bases processa documentos enviados para Amazon S3, dividindo-os em segmentos e gerando representações vetoriais (embeddings). O rastreador web integrado acessa websites selecionados para extrair e ingerir conteúdo.
A aplicação web executa como aplicação ECS. Usuários internos e externos acessam através de navegadores, com balanceamento de carga gerenciado por Elastic Load Balancing (ELB).
Autenticação ocorre via Amazon Cognito, usando credenciais registradas em um pool de usuários.
Ao submeter uma pergunta, a aplicação invoca uma função Lambda, que utiliza APIs do Amazon Bedrock para recuperar informações relevantes da base de conhecimento. A função envia também IDs de fonte de dados conforme o tipo de usuário (externo ou interno), garantindo que apenas informações disponíveis sejam recuperadas.
A Lambda então invoca Amazon Nova Lite para gerar respostas. O modelo de linguagem complementa dados da base de conhecimento, gerando uma resposta que é retornada e exibida ao usuário.
Pré-requisitos
Para implantar a solução, certifique-se de possuir:
Usar a mesma região AWS para acesso ao modelo e implantação da solução
Um bucket S3 na mesma região para armazenar dados internos
Criação da Base de Conhecimento e Ingestão de Dados
Configurar a Base de Conhecimento
Na console do Amazon Bedrock, acesse Knowledge Bases sob Builder tools. Crie uma nova base selecionando a opção de armazenamento vetorial. Escolha Web Crawler como fonte de dados e insira URLs do seu website para rastreamento. Configure o escopo de rastreamento (domínio específico ou subdomínio, se desejado) e defina filtros de regex para incluir ou excluir padrões de URL conforme necessário. Mantenha a estratégia padrão de fragmentação de conteúdo, selecione o modelo Amazon Titan Text Embeddings V2 para gerar embeddings, escolha Amazon OpenSearch Serverless como repositório vetorial e finalize a criação.
Após criação, acesse a página de detalhes da base e selecione a fonte de dados para sincronizá-la, iniciando o rastreamento e ingestão de dados do website.
Adicionar Dados Internos do Amazon S3
Na página de detalhes da base de conhecimento, escolha adicionar uma nova fonte de dados especificando Amazon S3. Selecione o bucket desejado, mantenha a estratégia de análise padrão e finalize. Sincronize a nova fonte para indexar dados dos documentos no bucket.
Fazer Upload de Documentos Internos
Na console do Amazon S3, selecione seu bucket e faça upload dos documentos internos. Retorne à console do Amazon Bedrock, acesse a base de conhecimento e sincronize a fonte de dados interna para indexar os arquivos enviados no repositório vetorial.
Anote os IDs da base de conhecimento e das fontes de dados (externa e interna), pois serão necessários na etapa seguinte.
Abra o arquivo parameters.json e atualize os IDs capturados anteriormente:
"external_source_id": "Set this to value from Amazon Bedrock Knowledge Base datasource",
"internal_source_id": "Set this to value from Amazon Bedrock Knowledge Base datasource",
"knowledge_base_id": "Set this to value from Amazon Bedrock Knowledge Base"
Siga as instruções de implantação definidas no arquivo customer-support-ai/README.md para configurar a infraestrutura.
Ao concluir, os detalhes de saída incluem a URL do Application Load Balancer (ALB) e credenciais de usuários de teste. Você também pode acessar a console do Amazon EC2, selecionar Load Balancers e copiar o nome de domínio (DNS) do ALB para acessar a interface.
Testando a Solução
Exemplo Prático: Consultas sobre Amazon S3
A solução diferencia classes de usuários, permitindo que o Amazon Bedrock Knowledge Bases gerencie múltiplas fontes (conteúdo web, documentação, tickets de suporte) com controles de filtragem integrados. Usuários internos acessam tanto guias operacionais quanto documentação pública; usuários externos veem apenas conteúdo público.
Abra a URL do ALB em um navegador. Autentique-se com as credenciais de usuário externo fornecidas. Acesse o Support AI Assistant na navegação e formule perguntas sobre Amazon S3. O assistente fornecerá respostas baseadas no guia de primeiros passos do Amazon S3. Se o usuário externo questionar informações restritas a usuários internos, o assistente responderá apenas com dados públicos.
Faça logout, autentique-se novamente como usuário interno e formule as mesmas consultas. O usuário interno acessará informações presentes nos documentos internos.
Limpeza de Recursos
Ao descontinuar a solução, remova os recursos associados. No diretório iac do projeto, execute:
cd iac
./cleanup.sh
Alternativamente, execute manualmente:
cd iac
cdk destroy --all
Na console do Amazon Bedrock, acesse Knowledge Bases, selecione a base criada e escolha Delete. Digite “delete” e confirme. Na console do OpenSearch Service, acesse Collections sob Serverless, selecione a coleção provisionada durante implantação, escolha Delete, digite “confirm” e confirme.
Conclusão
A solução apresentada demonstra como criar assistentes de website alimentados por IA para recuperar informações rapidamente através de rastreamento web e upload de documentos. A mesma abordagem pode ser adaptada para desenvolver outros protótipos e aplicações com IA generativa.
Para aprofundamento em fundamentos de IA generativa e trabalho com modelos de fundação, incluindo técnicas avançadas de prompt engineering, explore o curso Generative AI with LLMs. Este curso sob demanda, com duração de 3 semanas, destina-se a cientistas de dados e engenheiros que desejam construir aplicações de IA generativa com LLMs, oferecendo uma base sólida para desenvolvimento com Amazon Bedrock. Inscreva-se para aprender mais sobre Amazon Bedrock.
Simplificando a Infraestrutura de Rastreamento MLflow
Operacionalizar um servidor de rastreamento MLflow auto-gerenciado traz consigo uma série de responsabilidades administrativas. Desde a manutenção de infraestrutura até decisões sobre dimensionamento de recursos, as equipes de ciência de dados precisam investir tempo e recursos em tarefas operacionais que poderiam ser dedicadas ao trabalho analítico propriamente dito. Quando as atividades de experimentação em aprendizado de máquina ganham escala, o desafio de gerenciar recursos de forma eficiente durante períodos de pico e ociosidade torna-se especialmente crítico.
Organizações que mantêm MLflow em Amazon EC2 ou em infraestrutura local podem otimizar custos e recursos de engenharia adotando Amazon SageMaker AI com MLflow serverless. A AWS anunciou uma nova capacidade que permite aos usuários migrar seus servidores MLflow existentes para um aplicativo MLflow totalmente gerenciado — denominado MLflow App — que dimensiona recursos automaticamente conforme demanda, ao mesmo tempo que elimina tarefas de correção de segurança e gerenciamento de armazenamento.
Este artigo apresenta um guia prático de como transferir um servidor MLflow auto-gerenciado para essa arquitetura serverless, utilizando a ferramenta MLflow Export Import para mover experimentos, execuções, modelos e outros recursos, com instruções para validar o sucesso da migração.
Embora este artigo concentre-se especificamente em migrar servidores MLflow auto-gerenciados para a nova capacidade serverless do SageMaker, a ferramenta MLflow Export Import oferece aplicações mais amplas. A mesma abordagem funciona para migrar servidores MLflow já gerenciados pelo SageMaker para a nova funcionalidade serverless. Além disso, a ferramenta auxilia em atualizações de versão e no estabelecimento de rotinas de backup para recuperação de desastres.
Guia Passo a Passo: Migrando para SageMaker com MLflow
O processo de migração se divide em três fases principais: exportação de artefatos MLflow para armazenamento intermediário, configuração de um aplicativo MLflow, e importação dos artefatos para o novo ambiente.
O ambiente de execução — seja uma instância EC2, seu computador pessoal ou um notebook SageMaker — deve manter conectividade tanto com o servidor de rastreamento de origem quanto com o servidor de destino. A ferramenta suporta exportações a partir de servidores auto-gerenciados e servidores MLflow gerenciados pelo Amazon SageMaker (a partir da versão MLflow v2.16 em diante) para o MLflow Serverless do SageMaker.
Pré-Requisitos Necessários
Antes de iniciar o processo de migração, certifique-se de ter:
Ambiente de execução (EC2, máquina local ou notebook SageMaker) com Python 3.10+ instalado e espaço em disco e recursos computacionais adequados ao tamanho dos dados do seu servidor de rastreamento
Etapa 1: Verificar Compatibilidade de Versão do MLflow
Antes de iniciar a migração, observe que nem todas as funcionalidades do MLflow podem estar suportadas no processo. A ferramenta MLflow Export Import transfere diferentes objetos dependendo da versão do MLflow em uso.
Para preparar uma migração bem-sucedida:
Verifique a versão atual do MLflow no seu servidor de rastreamento existente:
mlflow --version
Consulte a versão mais recente suportada pelo Amazon SageMaker MLflow na documentação. Se estiver executando uma versão antiga do MLflow em um ambiente auto-gerenciado, recomenda-se fazer upgrade para a versão mais recente suportada antes de proceder com a migração:
pip install --upgrade mlflow=={supported_version}
Para uma lista atualizada dos recursos MLflow que podem ser transferidos usando MLflow Export Import, consulte a documentação MLflow Export Import.
Etapa 2: Criar um Novo Aplicativo MLflow
Para preparar seu ambiente de destino, você precisa primeiramente criar um novo aplicativo SageMaker Serverless MLflow. Após configurar o Amazon SageMaker AI, você pode acessar o Amazon SageMaker Studio e, na seção MLflow, criar um novo aplicativo MLflow (se não tiver sido criado automaticamente durante a configuração inicial do domínio). Siga as instruções fornecidas na documentação do SageMaker.
Após a criação do aplicativo MLflow gerenciado, ele deve aparecer no console do SageMaker Studio. Lembre-se de que o processo de criação pode levar até 5 minutos. Alternativamente, você pode visualizá-lo executando o seguinte comando da Interface de Linha de Comando AWS (CLI):
aws sagemaker list-mlflow-tracking-servers
Copie o Nome do Recurso da Amazon (ARN) do seu servidor de rastreamento para um documento — você precisará dele na Etapa 4. Selecione “Abrir MLflow”, que o leva a um painel MLflow vazio. Nas próximas etapas, você importará seus experimentos e artefatos relacionados de seu servidor MLflow auto-gerenciado neste dashboard.
Etapa 3: Instalar MLflow e o Plugin SageMaker MLflow
Para preparar seu ambiente de execução para a migração, você precisa estabelecer conectividade com seus servidores MLflow existentes e instalar e configurar os pacotes e plugins MLflow necessários.
Antes de iniciar a migração, estabeleça conectividade e autentique-se no ambiente que hospeda seu servidor MLflow auto-gerenciado (por exemplo, uma máquina virtual). Assim que tiver acesso ao seu servidor de rastreamento, instale MLflow e o plugin SageMaker MLflow em seu ambiente de execução. O plugin lida com o estabelecimento de conexão e autenticação ao seu aplicativo MLflow. Execute o seguinte comando:
pip install mlflow sagemaker-mlflow
Etapa 4: Instalar a Ferramenta MLflow Export Import
Antes de exportar seus recursos MLflow, você precisa instalar a ferramenta MLflow Export Import. Familiarize-se com a ferramenta e suas capacidades visitando sua página no GitHub.
Nos próximos passos, você usará suas ferramentas em massa (especificamente export-all e import-all), que permitem criar uma cópia do seu servidor de rastreamento com seus experimentos e artefatos relacionados. Essa abordagem mantém a integridade referencial entre objetos. Se desejar migrar apenas experimentos selecionados ou alterar o nome de experimentos existentes, você pode usar as ferramentas individuais. Consulte a documentação de MLflow Export Import para mais informações sobre objetos suportados e limitações.
Instale a ferramenta MLflow Export Import em seu ambiente executando:
Etapa 5: Exportar Recursos MLflow para um Diretório
Agora que seu ambiente está configurado, você pode começar o processo de migração exportando seus recursos MLflow do ambiente de origem. Após instalar a ferramenta MLflow Export Import, crie um diretório de destino em seu ambiente de execução como alvo para os recursos que você extrairá na próxima etapa.
Inspecione seus experimentos existentes e os recursos MLflow associados que deseja exportar. No exemplo a seguir, você deseja exportar os objetos armazenados atualmente (por exemplo, experimentos e modelos registrados).
Inicie a migração configurando a URI (Identificador de Recurso Uniforme) do seu servidor de rastreamento como uma variável de ambiente e executando a ferramenta de exportação em massa com os parâmetros do seu servidor MLflow existente e um diretório de destino:
# Defina a URI de rastreamento para seu servidor MLflow auto-gerenciado
export MLFLOW_TRACKING_URI=http://localhost:8080
# Inicie a exportação
export-all --output-dir mlflow-export
Aguarde até que a exportação seja concluída para inspecionar o diretório de saída (no caso anterior: mlflow-export).
Etapa 6: Importar Recursos MLflow para seu Aplicativo MLflow
Durante a importação, atributos definidos pelo usuário são retidos, mas tags geradas pelo sistema (por exemplo, data_de_criação) não são preservadas pela ferramenta MLflow Export Import. Para preservar atributos de sistema originais, use a opção –import-source-tags conforme mostrado no exemplo a seguir. Isso os salva como tags com o prefixo mlflow_exim. Para mais informações, consulte MLflow Export Import – Governança e Linhagem. Esteja ciente das limitações adicionais detalhadas aqui: Limitações de Importação.
O seguinte procedimento transfere seus recursos MLflow exportados para seu novo aplicativo MLflow:
Inicie a importação configurando a URI para seu aplicativo MLflow. Você pode usar o ARN — que você salvou na Etapa 1 — para isso. O plugin SageMaker MLflow instalado anteriormente traduz automaticamente o ARN em uma URI válida e cria uma solicitação autenticada à AWS (lembre-se de configurar suas credenciais AWS como variáveis de ambiente para que o plugin as encontre).
# Defina a URI de rastreamento para seu ARN do aplicativo MLflow
export MLFLOW_TRACKING_URI=arn:aws:sagemaker:::mlflow-app/app-
# Inicie a importação
import-all --input-dir mlflow-export
Etapa 7: Validar Resultados da Migração
Para confirmar que sua migração foi bem-sucedida, verifique que seus recursos MLflow foram transferidos corretamente. Após o script import-all ter migrado seus experimentos, execuções e outros objetos para o novo servidor de rastreamento, você pode começar a validar o sucesso da migração abrindo o dashboard do seu aplicativo MLflow serverless e verificando que:
Recursos MLflow exportados estão presentes com seus nomes e metadados originais
Históricos de execução estão completos com métricas e parâmetros
Artefatos de modelo estão acessíveis e podem ser baixados
Tags e notas foram preservadas
Você pode verificar o acesso programático iniciando um novo notebook SageMaker e executando o seguinte código:
import mlflow
# Defina a URI de rastreamento para seu ARN do aplicativo MLflow
mlflow.set_tracking_uri('arn:aws:sagemaker:::mlflow-app/app-')
# Liste todos os experimentos
experiments = mlflow.search_experiments()
for exp in experiments:
print(f"Experiment Name: {exp.name}")
# Obtenha todas as execuções para este experimento
runs = mlflow.search_runs(exp.experiment_id)
print(f"Number of runs: {len(runs)}")
Considerações Importantes
Ao planejar sua migração MLflow, verifique se seu ambiente de execução (seja EC2, máquina local ou notebooks SageMaker) possui armazenamento e recursos computacionais suficientes para lidar com o volume de dados do seu servidor de rastreamento de origem. Embora a migração possa ser executada em vários ambientes, o desempenho pode variar com base na conectividade de rede e recursos disponíveis. Para migrações em larga escala, considere dividir o processo em lotes menores (por exemplo, experimentos individuais).
Limpeza e Gerenciamento de Custos
Um servidor MLflow gerenciado pelo SageMaker incorre em custos até que você o delete ou interrompa. A cobrança para servidores de rastreamento é baseada na duração de execução dos servidores, no tamanho selecionado e na quantidade de dados registrados nos servidores de rastreamento. Você pode interromper servidores de rastreamento quando não estiverem em uso para economizar custos, ou pode deletá-los usando a API ou a interface do SageMaker Studio. Para mais detalhes sobre preços, consulte Preços do Amazon SageMaker.
Conclusão
Este artigo demonstrou como migrar um servidor MLflow auto-gerenciado para SageMaker com MLflow utilizando a ferramenta de código aberto MLflow Export Import. A migração para um aplicativo MLflow serverless no Amazon SageMaker AI reduz a sobrecarga operacional associada à manutenção de infraestrutura MLflow, enquanto oferece integração contínua com os serviços abrangentes de IA/ML do SageMaker.
Para começar sua própria migração, siga o guia passo a passo anterior e consulte a documentação referenciada para mais detalhes. Você pode encontrar exemplos de código e amostras no repositório GitHub de amostras AWS. Para mais informações sobre capacidades do Amazon SageMaker AI e outras funcionalidades MLOps, visite a documentação do Amazon SageMaker AI.
Expansão de avaliações multilíngues no Amazon Connect
A AWS anunciou a expansão do Amazon Connect com a capacidade de automatizar avaliações de desempenho de agentes em cinco novos idiomas: português, francês, italiano, alemão e espanhol. Essa evolução utiliza inteligência artificial generativa para streamline de um processo que historicamente demanda considerável tempo das equipes de gestão em centros de contato.
Como funciona a avaliação automática
O recurso de avaliação de desempenho do Amazon Connect permite que gestores definam critérios de avaliação personalizados utilizando linguagem natural. Em vez de exigir conhecimento técnico complexo, os gerenciadores simplesmente descrevem em suas próprias palavras o que consideram importante avaliar nos atendimentos. A inteligência artificial generativa então processa as conversas de agentes e gera avaliações automáticas, acompanhadas de justificativas que fundamentam cada pontuação atribuída.
Um diferencial importante é que todas as avaliações e justificativas são entregues no idioma de preferência do gerenciador, facilitando significativamente a gestão de equipes globais ou multilíngues.
Avaliações transversais de idiomas
Além de avaliar conversas no mesmo idioma, o Amazon Connect suporta avaliação cruzada entre idiomas. Isso significa que é possível avaliar conversas que ocorreram em português, francês, italiano, alemão ou espanhol gerando os relatórios de avaliação em inglês, ou vice-versa. Essa capacidade é especialmente valiosa para centros de contato multilíngues que precisam manter um framework padronizado de avaliação entre diferentes mercados e operações.
Disponibilidade regional
O recurso está disponível em 8 regiões AWS: US East (N. Virginia), US West (Oregon), Europe (Frankfurt), Europe (London), Canada (Central), Asia Pacific (Sydney), Asia Pacific (Tokyo) e Asia Pacific (Singapore). Essa cobertura permite que operações em múltiplas geografias adotem a solução sem necessidade de migrações complexas.
Próximos passos
Para organizações interessadas em implementar essa funcionalidade, recomenda-se consultar a documentação oficial do Amazon Connect sobre avaliações de desempenho com inteligência artificial generativa, que contém detalhes técnicos de configuração e casos de uso. Informações sobre preços podem ser consultadas na página de precificação do Amazon Connect. Também está disponível a página principal do Amazon Connect com informações gerais sobre o serviço.
A ascensão de modelos de linguagem grande (LLMs) poderosos consumidos via chamadas de API simplificou bastante a integração de capacidades de inteligência artificial em aplicações. Porém, apesar dessa conveniência, muitas empresas optam por auto-hospedar seus próprios modelos, aceitando a complexidade de gerenciar infraestrutura, os custos de GPUs e o desafio de manter os modelos atualizados.
Essa decisão geralmente está baseada em dois fatores críticos que serviços de API não conseguem resolver completamente. Primeiro, a soberania de dados: garantir que informações sensíveis não saiam da infraestrutura, seja por requisitos regulatórios, preocupações competitivas ou obrigações contratuais. Segundo, a customização de modelos: capacidade de ajustar modelos com dados proprietários para terminologia específica do setor ou criar capacidades especializadas que APIs genéricas não oferecem.
A Solução: Gerenciamento Simplificado da Infraestrutura
A Amazon SageMaker AI aborda a complexidade de gerenciar a infraestrutura de auto-hospedagem abstraindo a carga operacional. Por meio de endpoints gerenciados, o SageMaker AI cuida do provisionamento, escalabilidade e monitoramento de recursos GPU, permitindo que os times se concentrem no desempenho do modelo em vez de questões de infraestrutura.
O sistema fornece containers otimizados para inferência com frameworks populares como o vLLM pré-configurados para máximo throughput e latência mínima. Por exemplo, a imagem do container Large Model Inference (LMI) v16 utiliza vLLM v0.10.2, que emprega o engine V1 e oferece suporte para novas arquiteturas de modelos e hardwares como a geração Blackwell/SM100. Essa abordagem gerenciada transforma o que normalmente exigiria expertise dedicada em operações de aprendizado de máquina em um processo de implantação que requer apenas algumas linhas de código.
O Desafio da Otimização
Apesar da praticidade dos containers gerenciados, alcançar desempenho ótimo ainda exige configuração cuidadosa. Parâmetros como grau de paralelismo de tensor, tamanho de lote, comprimento máximo de sequência e limites de concorrência impactam dramaticamente tanto latência quanto throughput. Encontrar o equilíbrio certo para sua carga de trabalho e restrições de custo é um processo iterativo que consome tempo.
É aqui que o BentoML LLM-Optimizer faz diferença. A ferramenta permite benchmarking sistemático entre diferentes configurações de parâmetros, substituindo testes manuais por busca automatizada. Você define restrições como alvos específicos de latência ou requisitos de throughput, facilitando a identificação de configurações que atendem seus objetivos de nível de serviço.
Throughput (requisições por segundo): Quantas requisições seu sistema completa por segundo. Maior throughput significa atender mais usuários simultaneamente.
Latência (segundos): Tempo total entre a chegada de uma requisição até o retorno da resposta completa. Menor latência significa experiência mais rápida para o usuário.
Intensidade Aritmética: Razão entre computação realizada e dados movimentados. Isso determina se sua carga está limitada por velocidade de transferência de dados (intensidade baixa) ou poder de processamento bruto da GPU (intensidade alta).
O Modelo Roofline
O modelo roofline visualiza desempenho plotando throughput contra intensidade aritmética. Para LLM, ele ajuda a identificar se você está limitado por largura de banda de memória (típico para tamanhos pequenos de lote) ou capacidade de computação bruta (típico para tamanhos grandes de lote).
O Dilema Throughput-Latência
Otimização de inferência de LLM segue um dilema fundamental: conforme você aumenta throughput, a latência sobe. Lotes maiores processam mais requisições juntas, aumentando throughput, mas também aumentam tempos de espera, elevando latência. Paralelismo de tensor distribui o modelo entre GPUs, afetando ambas as métricas diferentemente. O desafio está em equilibrar múltiplos parâmetros interdependentes:
Grau de paralelismo de tensor (quantas GPUs usar)
Tamanho de lote (máximo de tokens processados juntos)
Limites de concorrência (máximo de requisições simultâneas)
Alocação de cache KV (memória para estados de atenção)
O processo começa dentro do SageMaker AI Studio com um Jupyter Notebook definindo os objetivos de implantação. Você especifica restrições como latência alvo, throughput desejado e tokens de saída.
2. Executar Estimativas Teóricas e Benchmarks Empíricos
O LLM-Optimizer primeiro executa estimativa de desempenho GPU teórica para identificar configurações viáveis para o hardware selecionado. Em seguida, realiza testes de benchmark usando vLLM em múltiplas combinações de parâmetros, medindo empiricamente latência e throughput. Com base nesses dados, o otimizador determina automaticamente a configuração de serving mais eficiente que satisfaz suas restrições.
3. Gerar e Implantar Configuração Otimizada
Uma vez completo o benchmarking, o otimizador retorna arquivo JSON com valores de parâmetros ótimos. Esse JSON é passado da configuraçao de endpoint do SageMaker, que implanta o LLM usando um endpoint HTTP gerenciado com parâmetros de runtime otimizados.
Caso Prático: Modelo Qwen3-4B no SageMaker AI
Considere uma implantação do modelo Qwen-3-4B em instância ml.g6.12xlarge (4x NVIDIA L4 GPUs, 24GB VRAM cada) com restrições realistas:
Alvo: 10 requisições por segundo (RPS)
Comprimento de entrada: 1.024 tokens
Comprimento de saída: 512 tokens
Executando a Estimativa Teórica
O primeiro passo é executar uma estimativa. O LLM-Optimizer analisa o modelo em 4x L4 e estima desempenho para os comprimentos de entrada e saída definidos. A análise roofline identifica gargalos da carga de trabalho.
Sob o capô, o LLM-Optimizer realiza análise roofline buscando arquitetura do modelo no Hugging Face, extraindo parâmetros como dimensões ocultas, número de camadas e cabeças de atenção. Calcula FLOPs teóricos necessários para fases de prefill (processamento de tokens de entrada) e decode (geração de saída). Compara intensidade aritmética contra características de hardware da GPU para determinar se prefill e decode estão limitados por memória ou computação.
Executando Benchmarks Empíricos
Com base nas saídas de estimativa, você executa benchmarks reais. O LLM-Optimizer testa diferentes combinações de paralelismo de tensor, tamanho de lote e concorrência, capturando métricas de baixo nível como time-to-first-token (TTFT), inter-token latency (ITL), latência end-to-end, tokens por segundo e utilização de GPU.
Os resultados mostram que paralelismo de tensor de 4 consistentemente supera configurações com menor paralelismo. A configuração ótima — tensor_parallel_size=4, max_num_batched_tokens=8192 e max_concurrency=128 — atinge 7,51 requisições/segundo, uma melhoria de 2,7x em relação ao baseline ingênuo com GPU única. Para workloads sensíveis a latência, a solução intermediária — tensor_parallel_size=4 com max_num_batched_tokens=4096 e concorrência moderada (32) — mantém latência p99 end-to-end abaixo de 24 segundos enquanto entrega 5,63 req/s, mais que o dobro do baseline.
Implantação no Amazon SageMaker AI
Com parâmetros ótimos identificados, o passo final é implantar em produção. O SageMaker AI fornece um ambiente ideal para essa transição, abstraindo complexidade de infraestrutura de hosting em GPU distribuído.
Os containers LMI da AWS são imagens Docker de alto desempenho especificamente projetadas para inferência de LLM. Integram nativamente com frameworks como vLLM e TensorRT, oferecendo suporte embutido para paralelismo de tensor multi-GPU, batching contínuo e geração de tokens com streaming.
Você passa as configurações determinadas diretamente ao container como variáveis de ambiente:
Quando essas variáveis são aplicadas, o SageMaker as injeta na camada de configuração de runtime, inicializando o engine vLLM com os argumentos desejados. Durante inicialização, o container baixa pesos do modelo do Hugging Face, configura topologia de GPU para execução paralela de tensor e registra o modelo com o Runtime de Endpoint do SageMaker.
Impacto Real na Prática
A jornada de seleção de modelo para implantação em produção não precisa mais depender de tentativa e erro. Passar de uma configuração ingênua com GPU única para paralelismo de tensor 4 com tamanhos de lote otimizados pode exigir 2-4x menos GPUs enquanto entrega 2-3x menor latência. O que tradicionalmente levaria dias ou semanas de testes manuais toma poucas horas de benchmarking automatizado.
Sem otimização sistemática, times enfrentam jogo caro entre super-provisionar recursos GPU e arriscar degradação de experiência do usuário. Combinando busca automática de configuração com infraestrutura gerenciada, organizações tomam decisões baseadas em dados que impactam diretamente custos de nuvem e satisfação do usuário.
Conclusão
A combinação de benchmarking automatizado e implantação de modelos grandes gerenciada representa avanço significativo em tornar IA empresarial acessível e economicamente eficiente. Ao aproveitar otimização inteligente de configuração e hosting escalável e tolerante a falhas, times podem focar em construir experiências de IA diferenciadas em vez de gerenciar infraestrutura ou afinar stacks de inferência manualmente.
A melhor configuração de LLM não é apenas aquela que executa mais rápido — é aquela que atende objetivos específicos de latência, throughput e custo em produção. Com essas ferramentas, esse equilíbrio pode ser descoberto sistematicamente, reproduzido consistentemente e implantado com confiança.
Transformando o Processamento de Documentos com IA
O processamento inteligente de documentos (Intelligent Document Processing — IDP) representa uma mudança fundamental em como as organizações lidam com dados não estruturados. Faturas, contratos, relatórios e outros documentos comerciais contêm informações valiosas que, tradicionalmente, exigem extração manual. A AWS demonstra uma abordagem programática e automatizada para essa tarefa, combinando tecnologias recentes em inteligência artificial.
A solução apresentada integra o Strands SDK, Amazon Bedrock AgentCore, Amazon Bedrock Knowledge Base e Bedrock Data Automation (BDA). Todo o processo é documentado através de um Jupyter notebook que permite aos usuários fazer upload de documentos multimodais e extrair conhecimentos aplicando BDA como analisador de conteúdo, recuperando trechos relevantes e enriquecendo prompts enviados para modelos de linguagem.
Um caso de uso prático demonstra a extração de contexto educacional relevante a partir de relatórios públicos — especificamente, dados de distritos escolares públicos obtidos do relatório nacional da educação americana.
Amazon Bedrock Data Automation pode funcionar de duas formas: como recurso independente ou como analisador integrado ao configurar uma base de conhecimento para fluxos de Geração Aumentada por Recuperação (Retrieval-Augmented Generation — RAG). O serviço processa conteúdo multimodal não estruturado — documentos, imagens, vídeos e áudio — gerando insights automaticamente e de forma econômica.
A combinação de BDA com fluxos RAG permite construir sistemas que entendem contextos complexos armazenando representações vetoriais dos documentos. Para isso, a solução utiliza Amazon OpenSearch Service como repositório das embeddings vetoriais necessárias.
Amazon Bedrock AgentCore
Amazon Bedrock AgentCore é um serviço totalmente gerenciado que permite construir e configurar agentes autônomos. Desenvolvedores podem criar e implantar agentes usando frameworks populares e um conjunto diverso de modelos — incluindo opções da Amazon Bedrock, Anthropic, Google e OpenAI — sem necessidade de gerenciar infraestrutura subjacente ou escrever código customizado.
Na solução apresentada, o AgentCore utiliza BDA através de ferramentas para executar RAG multimodal aplicado ao processamento inteligente de documentos.
Strands Agents SDK
O Strands Agents SDK é um toolkit sofisticado de código aberto que revoluciona o desenvolvimento de agentes de inteligência artificial por meio de uma abordagem orientada por modelo. Desenvolvedores criam um agente Strands com um prompt (que define o comportamento do agente) e uma lista de ferramentas disponíveis. Um modelo de linguagem grande (Large Language Model — LLM) realiza o raciocínio, decidindo autonomamente quais ações executar e quando utilizar cada ferramenta com base no contexto e na tarefa solicitada.
Esse fluxo de trabalho suporta sistemas complexos, minimizando o código necessário para orquestrar colaboração entre múltiplos agentes. O Strands SDK é responsável pela criação do agente e definição das ferramentas necessárias para realizar o processamento inteligente de documentos.
Pré-requisitos e Arquitetura
Preparação Inicial
Antes de começar, certifique-se de que você possui:
Faça o clone do repositório de exemplo localmente:
git clone https://github.com/aws-samples/sample-for-amazon-bda-agents
cd sample-for-amazon-bda-agents
Abra o Jupyter notebook chamado bedrock-data-automation-with-agents.ipynb.
Fluxo de Trabalho com Bedrock Data Automation e AgentCore
O notebook demonstra como criar uma solução de processamento inteligente usando BDA com o Amazon Bedrock AgentCore Runtime. Em vez de usar agentes tradicionais do Bedrock, a solução implanta um agente Strands através do AgentCore, fornecendo capacidades de nível empresarial com flexibilidade de framework.
O processo segue estas etapas:
Importar bibliotecas e configurar capacidades do AgentCore
Criar a Knowledge Base para Amazon Bedrock com BDA
Fazer upload do dataset de relatórios acadêmicos para Amazon S3
Implantar o agente Strands usando o AgentCore Runtime
Testar o agente hospedado no AgentCore
Limpar todos os recursos após conclusão
Instruções mais específicas estão incluídas no Jupyter notebook fornecido.
Fluxo de Dados da Solução
O fluxo geral da solução funciona da seguinte forma:
Usuários fazem upload de documentos relevantes para Amazon S3
A Knowledge Base do Amazon Bedrock processa a fonte de dados no S3 utilizando Bedrock Data Automation como analisador
Chunks de documentos são armazenados como embeddings vetoriais em Amazon OpenSearch
Um agente Strands implantado no Amazon Bedrock AgentCore Runtime executa RAG para responder perguntas do usuário
O usuário final recebe a resposta consultada
Considerações de Segurança
A implementação inclui várias salvaguardas de segurança:
Tratamento seguro de upload de arquivos
Controle de acesso baseado em papéis (Identity and Access Management — IAM)
Validação de entrada e tratamento de erros
É importante notar que essa implementação destina-se a fins de demonstração. Antes de implantar em um ambiente de produção, controles de segurança adicionais, testes abrangentes e revisões arquiteturais são necessários.
Benefícios e Casos de Uso
Essa solução é particularmente valiosa para:
Fluxos de trabalho automatizados de processamento de documentos
Análise inteligente de documentos em datasets de grande escala
Sistemas de perguntas e respostas baseados em conteúdo de documentos
A solução apresentada demonstra como o Amazon Bedrock AgentCore e suas capacidades podem ser usados para construir aplicações robustas de processamento inteligente de documentos. Ao criar agentes Strands que suportam Amazon Bedrock Data Automation, é possível desenvolver aplicações poderosas que compreendem e interagem com conteúdo multimodal de documentos utilizando ferramentas especializadas.
Com Amazon Bedrock Data Automation, as organizações podem aprimorar significativamente a experiência RAG para formatos de dados mais complexos — incluindo documentos visualmente ricos, imagens, áudios e vídeos — sem necessidade de construir infraestrutura customizada.
As organizações empresariais dependem cada vez mais de aplicações web para processos críticos de negócios, mas grande parte desses fluxos permanece intensiva em trabalho manual. Essa realidade cria ineficiências operacionais significativas e riscos de conformidade que prejudicam a produtividade.
Um problema recorrente em muitas empresas é que profissionais de conhecimento precisam navegar entre oito a doze aplicações web diferentes durante seus fluxos de trabalho padrão, alternando constantemente entre contextos e transferindo informações manualmente entre sistemas. Tarefas de entrada e validação de dados consomem aproximadamente 25 a 30% do tempo de trabalho, enquanto processos manuais criam gargalos de conformidade e desafios de consistência de dados entre sistemas que exigem verificação humana contínua.
As abordagens tradicionais de automação apresentam limitações significativas. A automação robótica de processos (RPA) funciona bem para processos estruturados e baseados em regras, mas se torna frágil quando aplicações são atualizadas e exige manutenção contínua. Integrações baseadas em APIs permanecem ideais, mas muitos sistemas legados carecem de capacidades modernas. Plataformas de gerenciamento de processos de negócio oferecem orquestração, mas enfrentam dificuldades com pontos de decisão complexos e interação direta com interfaces web.
Como resultado, a maioria das empresas opera com abordagens mistas: apenas 30% das tarefas de fluxo de trabalho estão totalmente automatizadas, 50% exigem supervisão humana e 20% permanecem inteiramente manuais.
Aplicações reais enfrentam complexidade crescente
Esses desafios se manifestam em fluxos empresariais comuns. A validação de pedidos de compra exige navegação inteligente através de múltiplos sistemas para realizar correspondência tripla entre pedidos, recebimentos e faturas, mantendo trilhas de auditoria. A integração de novos funcionários demanda provisionamento coordenado de acesso entre sistemas de gerenciamento de identidade, gestão de relacionamento com clientes (CRM), planejamento de recursos empresariais (ERP) e plataformas de colaboração, com tomadas de decisão baseadas em papéis. Por fim, o processamento de pedidos de comércio eletrônico precisa processar inteligentemente pedidos através de múltiplos sites de varejistas que carecem de acesso nativo a APIs.
Agentes de IA como solução transformadora
Os agentes de inteligência artificial representam um avanço significativo além dessas soluções tradicionais, oferecendo capacidades que navegam inteligentemente por complexidade, adaptam-se a ambientes dinâmicos e reduzem drasticamente a intervenção manual em fluxos de trabalho empresariais.
Arquitetura do fluxo de automação de comércio eletrônico
Esse fluxo de trabalho demonstra como agentes de IA podem automatizar inteligentemente o processamento complexo e multietapas de pedidos através de sites de varejistas diversos que carecem de integração nativa via API, combinando navegação adaptativa do navegador com supervisão humana para tratamento de exceções.
Os seguintes componentes trabalham juntos para permitir processamento de pedidos com alimentação por IA em escala:
Tarefas do ECS Fargate executam um backend Python FastAPI em contêiner com frontend React, fornecendo conexões WebSocket para automação de pedidos em tempo real. As tarefas escalam automaticamente conforme a demanda.
A aplicação integra-se com o Amazon Bedrock e Amazon Nova Act para automação de pedidos com IA.
A Ferramenta AgentCore Browser oferece um ambiente de navegador seguro e isolado para automação web.
Um Agente Principal orquestra o Agente Nova Act e a combinação Strands + Playwright para controle inteligente do navegador.
O fluxo de trabalho de automação de comércio eletrônico representa um desafio empresarial comum onde negócios precisam processar pedidos através de múltiplos sites de varejistas sem acesso nativo a APIs. Esse fluxo demonstra as capacidades completas de automação de navegador com alimentação por IA, desde navegação inicial até tomada de decisão complexa e intervenção com humano no circuito.
A AWS disponibilizou uma amostra de automação de comércio eletrônico com agentes, que foi disponibilizada como código aberto no repositório aws-samples no GitHub.
Detalhes do processo de fluxo de trabalho
Usuários do sistema de gerenciamento de pedidos de comércio eletrônico submetem pedidos de clientes através de uma interface web ou upload de arquivo CSV em lote, incluindo detalhes do produto (URL, tamanho, cor), informações do cliente e endereço de entrega. O sistema atribui níveis de prioridade e enfileira pedidos para processamento.
Quando um pedido é iniciado, o Amazon Bedrock AgentCore Browser cria uma sessão de navegador isolada com conectividade através do Chrome DevTools Protocol (CDP). A Ferramenta AgentCore Browser oferece um navegador seguro baseado em nuvem que permite ao agente de IA (Amazon Nova Act e agente Strands neste caso) interagir com sites. Ela inclui recursos de segurança como isolamento de sessão, observabilidade integrada através de visualização ao vivo, registro de AWS CloudTrail e capacidades de replay de sessão.
O sistema recupera credenciais de varejistas do AWS Secrets Manager e gera uma URL de visualização ao vivo usando transmissão Amazon DCV para monitoramento em tempo real.
Preenchimento de formulários e envio de pedidos
O preenchimento de formulários representa uma capacidade crítica onde o agente detecta inteligentemente e popula vários tipos de campo em diferentes layouts de checkout de varejistas. O agente de IA visita a página do produto, lida com autenticação se necessária e analisa a página para identificar seletores de tamanho, opções de cor e botões de carrinho. Seleciona opções especificadas, adiciona itens ao carrinho e prossegue para checkout, preenchendo informações de entrega com detecção inteligente de campos em diferentes layouts de varejistas. Se produtos estiverem fora de estoque ou indisponíveis, o agente escala para revisão humana com contexto sobre alternativas.
A aplicação de amostra emprega duas abordagens distintas dependendo do método de automação. O Amazon Nova Act usa compreensão visual e estrutura do Modelo de Objeto de Documento (DOM) da página web, permitindo que o agente Nova Act receba instruções em linguagem natural como “preencher endereço de entrega” e identifique automaticamente campos de formulário a partir da captura de tela, adaptando-se a diferentes layouts sem seletores predefinidos.
Em contraste, a combinação Strands + Playwright Model Context Protocol (MCP) usa modelos do Bedrock para analisar a estrutura do Modelo de Objeto de Documento da página, determinar seletores de campo de formulário apropriados, e então o Playwright MCP executa as interações de navegador de baixo nível para popular os campos com dados do cliente. Ambas as abordagens adaptam-se automaticamente a interfaces de checkout diversas de varejistas, eliminando a fragilidade da automação tradicional baseada em seletores.
Supervisão humana e resolução de problemas
Quando o sistema encontra CAPTCHAs ou desafios complexos, o agente pausa a automação e notifica operadores através de WebSocket. Os operadores acessam a visualização ao vivo para ver o estado exato do navegador, resolver o problema manualmente e disparar a retomada. O AgentCore Browser permite a tomada de controle do navegador por humano e passagem de controle de volta para o agente. O agente continua do estado atual sem reiniciar todo o processo.
Observabilidade e escalabilidade
Durante toda a execução, o sistema captura gravações de sessão armazenadas em S3, capturas de tela em etapas críticas e registros de execução detalhados com timestamps. Os operadores monitoram o progresso através de um painel em tempo real que mostra status do pedido, etapa atual e percentual de progresso.
Para cenários de alto volume, o processamento em lote suporta execução paralela de múltiplos pedidos com workers configuráveis (1-10), enfileiramento baseado em prioridade e lógica automática de retry para falhas transitórias.
Conclusão: Um novo paradigma na automação empresarial
A automação de navegador acionada por agentes de IA representa uma mudança fundamental em como empresas abordam a gestão de fluxos de trabalho. Ao combinar tomada de decisão inteligente, navegação adaptativa e capacidades com humano no circuito, as organizações podem ir além da divisão 30-50-20 da automação tradicional rumo a taxas significativamente mais altas de automação em fluxos complexos entre múltiplos sistemas.
O exemplo de automação de pedidos de comércio eletrônico demonstra que agentes de IA não substituem a RPA tradicional — eles habilitam automação de fluxos de trabalho previamente considerados demasiado dinâmicos ou complexos para automação, lidando com interfaces de usuário diversas, tomando decisões contextualizadas e mantendo conformidade completa e auditabilidade.
À medida que empresas enfrentam pressão crescente para melhorar eficiência operacional enquanto gerenciam sistemas legados e integrações complexas, os agentes de IA oferecem um caminho prático adiante. Em vez de investir em reformulações caras de sistemas ou aceitar ineficiências de processos manuais, as organizações podem implantar automação de navegador inteligente que se adapta ao seu cenário de tecnologia existente. O resultado é redução de custos operacionais, tempos de processamento mais rápidos, conformidade melhorada e, mais importante, liberação de profissionais de conhecimento de tarefas repetitivas de entrada de dados e navegação de sistemas — permitindo que se concentrem em atividades de maior valor que geram impacto nos negócios.
O desafio dos testes de qualidade em desenvolvimento moderno
A garantia de qualidade (QA) sempre foi fundamental no desenvolvimento de software, mas as metodologias tradicionais de testes não acompanharam a velocidade dos ciclos modernos de desenvolvimento e a complexidade crescente das interfaces de usuário. A maioria das organizações ainda depende de uma abordagem híbrida que combina testes manuais com frameworks de automação baseados em scripts, como Selenium, Cypress e Playwright. Apesar dessa combinação, os times gastam proporções significativas de seu tempo mantendo os testes já existentes em vez de criar novos cenários.
O problema central reside na fragilidade da automação tradicional. Scripts de teste quebram quando há alterações na interface, exigem conhecimento especializado em programação e frequentemente oferecem cobertura incompleta em diferentes navegadores e dispositivos. Com muitas organizações explorando ativamente fluxos de testes orientados por IA, as abordagens convencionais se mostram insuficientes para os desafios contemporâneos.
O que muda com automação agentic de testes
Transformação do paradigma de testes
A IA agentic marca uma transição importante: afasta os testes QA da automação baseada em regras para sistemas de testes inteligentes e autônomos. Diferentemente da automação convencional, que segue scripts pré-programados, sistemas com IA agentic conseguem observar, aprender, se adaptar e tomar decisões em tempo real.
As vantagens principais incluem a geração autônoma de testes através da observação da interface do usuário, além da adaptação dinâmica conforme elementos visuais mudam — reduzindo significativamente o overhead de manutenção que consome o tempo dos times de QA. Esses sistemas replicam padrões de interação humana, garantindo que os testes ocorram de uma perspectiva genuinamente realista, não através de caminhos rígidos e pré-definidos.
Infraestrutura para testes agentic em escala empresarial
O papel do AgentCore Browser
Para materializar o potencial dos testes com IA agentic em escala empresarial, as organizações precisam de uma infraestrutura robusta que suporte agentes de testes inteligentes e autônomos. O Amazon Bedrock AgentCore Browser, um serviço integrado ao Amazon Bedrock AgentCore, atende a essa necessidade fornecendo um ambiente de navegador seguro e baseado em nuvem, especialmente projetado para que agentes de IA interajam com websites e aplicações.
O AgentCore Browser incorpora recursos de segurança essenciais em nível empresarial, como isolamento de sessão, observabilidade integrada através de visualização ao vivo, registro de logs via AWS CloudTrail, e capacidades de reprodução de sessão. Operando dentro de um ambiente containerizado efêmero, cada instância de navegador pode ser encerrada após o uso, proporcionando estados de testes limpos e gerenciamento otimizado de recursos.
Para operações de QA em grande escala, o AgentCore Browser pode executar múltiplas sessões de navegador simultaneamente, permitindo que as organizações paralelizem testes em diferentes cenários, ambientes e jornadas de usuário de forma concorrente.
Integração com Amazon Nova Act
As capacidades de infraestrutura do AgentCore Browser ganham potência real quando combinadas com um SDK agentic como o Amazon Nova Act. O Amazon Nova Act é um serviço AWS que auxilia desenvolvedores a construir, implantar e gerenciar frotas de agentes de IA confiáveis para automatizar fluxos de trabalho de interface de usuário em produção.
Com esse SDK, os desenvolvedores conseguem dividir fluxos de teste complexos em comandos menores e confiáveis, mantendo a capacidade de chamar APIs e realizar manipulação direta do navegador quando necessário. Essa abordagem oferece integração perfeita de código Python ao longo de todo o processo de testes. Os desenvolvedores podem intercalar testes, breakpoints e assertions diretamente dentro do fluxo agentic, proporcionando controle e capacidades de debug sem precedentes.
A combinação da infraestrutura em nuvem do AgentCore Browser com o SDK agentic do Amazon Nova Act cria um ecossistema abrangente de testes que transforma a forma como as organizações abordam garantia de qualidade.
Um caso prático: testes em aplicação de varejo
Estrutura da implementação
Para ilustrar essa transformação na prática, considere o desenvolvimento de uma nova aplicação para uma empresa de varejo. Um aplicativo web de varejo mock foi criado para demonstrar o processo de testes com IA agentic, assumindo que a aplicação está hospedada em infraestrutura AWS dentro de uma rede corporativa privada durante fases de desenvolvimento e testes.
Para otimizar o processo de criação de testes, utiliza-se o Kiro, um assistente de codificação alimentado por IA, que gera automaticamente casos de teste de interface observando a base de código da aplicação. O Kiro examina a estrutura da aplicação, analisa padrões de teste existentes e cria casos de teste abrangentes seguindo o formato de schema JSON exigido pelo Amazon Nova Act.
Ao compreender os recursos da aplicação — incluindo navegação, busca, filtragem e envios de formulários — o Kiro gera etapas de teste detalhadas com ações e resultados esperados que são imediatamente executáveis através do AgentCore Browser. Essa abordagem assistida por IA acelera dramaticamente a criação de testes oferecendo cobertura abrangente.
Execução e paralelização de testes
Após os casos de teste serem gerados, eles são colocados no diretório de dados de teste onde o pytest descobre e executa automaticamente. Cada arquivo de teste JSON se torna um teste independente que o pytest pode executar em paralelo. O framework utiliza pytest-xdist para distribuir testes em múltiplos processos worker, utilizando automaticamente recursos disponíveis no sistema para desempenho otimizado.
Durante a execução, cada teste obtém sua própria sessão isolada do AgentCore Browser através do SDK do Amazon Nova Act. O agente Amazon Nova Act lê as etapas de teste do arquivo JSON e as executa — realizando ações como clicar em botões ou preencher formulários, depois validando que os resultados esperados ocorrem. Essa abordagem orientada por dados significa que times podem criar suites de testes abrangentes simplesmente escrevendo arquivos JSON, sem necessidade de escrever código Python para cada cenário de teste.
A arquitetura de execução paralela reduz significativamente o tempo de teste. Testes que normalmente rodariam sequencialmente agora podem ser executados simultaneamente em múltiplas sessões de navegador, com pytest gerenciando a distribuição e agregação dos resultados. Um relatório HTML é gerado automaticamente usando pytest-html e o plugin pytest-html-nova-act, fornecendo resultados dos testes, screenshots e logs de execução para visibilidade completa do processo.
Observabilidade e rastreamento em tempo real
Uma das capacidades mais poderosas do AgentCore Browser é sua habilidade de executar múltiplas sessões de navegador simultaneamente, permitindo verdadeira execução paralela de testes em escala. Quando pytest distribui testes entre processos worker, cada teste cria sua própria sessão de navegador isolada na nuvem. Isso significa que toda a suite de testes pode executar simultaneamente ao invés de esperar que cada teste se complete sequencialmente.
O AWS Management Console fornece visibilidade completa sobre essas sessões paralelas. É possível visualizar as sessões de navegador ativas executando simultaneamente, monitorar seu status e rastrear a utilização de recursos em tempo real. Essa observabilidade é crítica para compreender padrões de execução de testes e otimizar a infraestrutura de testes.
Além de monitorar apenas o status das sessões, o AgentCore Browser oferece recursos de visualização ao vivo e reprodução de sessão para observar exatamente o que o Amazon Nova Act está fazendo durante e após a execução dos testes. Para uma sessão de navegador ativa, é possível abrir a visualização ao vivo e observar o agente interagindo com a aplicação em tempo real — clicando botões, preenchendo formulários, navegando páginas e validando resultados. Quando a reprodução de sessão está habilitada, é possível visualizar os eventos gravados através da reprodução da sessão registrada. Isso permite validar resultados de testes mesmo após a execução se completar. Essas capacidades são inestimáveis para depurar falhas de teste, compreender comportamento de agentes e ganhar confiança no processo automatizado de testes.
Recursos e próximos passos
Para instruções completas de implantação e acesso ao código da aplicação de varejo de exemplo, templates do AWS CloudFormation e framework de testes pytest, consulte o repositório GitHub acompanhante. O repositório inclui os componentes necessários para implantar e testar a aplicação em seu próprio ambiente AWS.
Conclusão
A automação inteligente de testes QA representa uma evolução significativa nas práticas de garantia de qualidade. Ao combinar infraestrutura robusta em nuvem com agentes de IA autônomos, a AWS demonstra como é possível reduzir drasticamente o tempo de manutenção de testes, aumentar a cobertura de cenários e criar sistemas que se adaptam naturalmente às mudanças nas aplicações. O modelo agentic não elimina a necessidade de engenheiros de QA, mas libera seu tempo valioso para atividades estratégicas enquanto a automação inteligente cuida da execução rotineira de testes.
Construir agentes de IA sofisticados capazes de lidar com tarefas complexas do mundo real representa um desafio significativo para as organizações. Além disso, muitas empresas reconhecem que confiar apenas em grandes modelos de fundação pré-treinados nem sempre é o melhor caminho. Frequentemente, é necessário fazer ajuste fino e customizar modelos menores e mais especializados para obter desempenho superior em casos de uso específicos.
É nesse contexto que a AWS lançou o programa AWS AI League, uma iniciativa inovadora que ajuda empresas a enfrentar o desafio de construir capacidades avançadas de IA por meio de competições envolventes que impulsionam a inovação em IA com agentes inteligentes e personalização de modelos.
Em 2025, a primeira competição do programa chamou a atenção de desenvolvedores, cientistas de dados e líderes de negócio em todo o mundo. Profissionais de diferentes organizações se reuniram para resolver problemas urgentes utilizando as mais recentes ferramentas e técnicas de IA. O grande final na AWS re:Invent 2025 foi um espetáculo que demonstrou o engenho e habilidade dos participantes. Equipes multidisciplinares de organizações líderes competiram frente a frente, exibindo sua capacidade de criar prompts efetivos, fazer ajuste fino de modelos e construir agentes de IA poderosos.
Os campeões da edição 2025 da AWS AI League foram:
Os vencedores dividiram um prêmio de 25 mil dólares. Este artigo explora como o programa AWS AI League funciona como plataforma para empresas organizarem competições internas de IA, permitindo que participantes experimentem conceitos de personalização de modelos e construção de agentes, apliquem esses aprendizados a desafios reais de negócio e apresentem suas soluções inovadoras em um formato dinâmico e envolvente.
A experiência AWS AI League começa com um workshop prático de 2 horas conduzido por especialistas da AWS, seguido por experimentação no próprio ritmo do participante. A jornada culmina em um grande finale em formato de competição de game show, onde os participantes apresentam suas criações de IA e soluções para desafios reais de negócio.
Com base no sucesso do programa 2025, a AWS anunciou o lançamento do Campeonato AWS AI League 2026. Este ano, a competição apresenta dois novos desafios que permitem aos participantes colocar suas habilidades de IA à prova:
Desafio de IA com Agentes Inteligentes
O desafio de IA com agentes permite que os participantes construam agentes inteligentes utilizando o Amazon Bedrock AgentCore. Os competidores criam arquiteturas de agentes customizadas para lidar com problemas reais de negócio. Neste desafio, os agentes navegam por um ambiente em forma de labirinto em uma grade, enfrentando vários obstáculos enquanto buscam um baú com tesouro. Esses obstáculos mapeiam para casos de uso do mundo real, testando a capacidade dos agentes de lidar com conteúdo impróprio, executar código, usar navegador web e muito mais.
Os agentes têm um limite de tempo para atravessar o mapa, coletar pontos e superar os obstáculos antes de alcançar o baú de tesouro. Quanto mais pontos conquistam, maior sua classificação no ranking. Você pode customizar completamente seus agentes usando as primitivas do Amazon Bedrock AgentCore, o que permite escalar e gerenciar agentes em nível de produção de forma mais segura.
Também é possível selecionar modelos específicos para agentes supervisores e sub-agentes, além de criar ferramentas personalizadas como Bedrock Guardrails, AgentCore Memory e funções AWS Lambda para ajudar seus agentes a navegarem pelos desafios.
O AWS AI League oferece uma interface completa baseada em web para os usuários construírem suas soluções com agentes inteligentes. Você pode usar essa interface sem código para construir arquiteturas com múltiplos agentes e ferramentas, integrando componentes como Amazon SageMaker Studio CodeEditor para codificação interativa de funções Lambda e ferramentas personalizadas. Isso permite que você desenvolva e customize completamente suas soluções baseadas em agentes dentro do site AWS AI League, sem precisar sair do ambiente.
Durante toda a competição, os usuários recebem feedback em tempo real sobre o desempenho de seus agentes. Um avaliador baseado em modelo de linguagem grande (LLM) fornece avaliação para ajudar na iteração e melhoria contínua.
No grande finale, os finalistas sobem ao palco para apresentar as capacidades de seus agentes em um formato ao vivo de game show, demonstrando o poder e versatilidade da IA com agentes para resolver problemas complexos e multi-etapas. Os critérios de avaliação incluem eficiência de tempo, precisão na resolução de desafios, planejamento do agente e eficiência no consumo de tokens.
Desafio de Personalização de Modelos
Complementando o desafio de IA com agentes, o novo desafio de personalização de modelos agora utiliza as técnicas mais recentes de ajuste fino disponíveis no Amazon SageMaker Studio. Aqui você customiza modelos para casos de uso específicos.
O objetivo é desenvolver modelos altamente efetivos e especializados em domínios que podem superar o desempenho de modelos maiores de referência. O desafio começa com você refinando suas habilidades de personalização de modelos. Utilizando as ferramentas e técnicas que aprendeu, você aplica métodos avançados de ajuste fino para melhorar o desempenho do seu modelo.
Após a customização dos modelos, o verdadeiro teste começa. Os modelos são submetidos a um ranking para avaliação de desempenho em relação a um modelo de referência. O seu modelo ganha pontos cada vez que o juiz automatizado determina que a resposta do seu modelo customizado é mais precisa e abrangente do que a resposta do modelo de referência.
Durante o desafio, você recebe feedback em tempo real sobre o desempenho do seu modelo de um avaliador automatizado quando faz submissões no ranking. O ranking avalia as submissões em relação a um conjunto de dados de referência durante toda a competição, fornecendo feedback imediato sobre precisão para ajudá-lo a iterar e melhorar suas soluções.
No grande finale, os finalistas apresentam as capacidades de seus modelos em um formato ao vivo de game show, exibindo suas habilidades de engenharia de prompts. Durante o game show, a pontuação inclui avaliação por especialistas, onde experts de domínio e público ao vivo participam de votação em tempo real para determinar quais soluções de IA resolvem melhor os desafios reais de negócio.
Prêmios e Estrutura para 2026
Para o campeonato AWS AI League 2026, o fundo de prêmios dobra para 50 mil dólares, com trilhas que atendem a desenvolvedores em diferentes níveis de habilidade — desde iniciantes até profissionais avançados. Isso permite que profissionais de todos os níveis participem e demonstrem suas capacidades.
As empresas também podem solicitar credibilidades da AWS para hospedar torneios internos, enquanto desenvolvedores podem competir durante eventos da AWS.
Conclusão
O programa AWS AI League demonstra como competições bem estruturadas podem ser um catalisador poderoso para inovação. O programa oferece a programadores a oportunidade de showcasear suas habilidades de IA, competir e desbloquear inovação através de desafios práticos e envolventes.