Construindo Agentes de IA Confiáveis com Avaliações do Amazon Bedrock AgentCore

O Desafio Real dos Agentes de IA em Produção

Um agente de inteligência artificial funciona perfeitamente durante a demonstração, impressiona as partes interessadas, passa por todos os testes e parece pronto para o ambiente de produção. Mas quando finalmente é implantado, a realidade muda. Usuários reais se deparam com chamadas de ferramentas incorretas, respostas inconsistentes e falhas que ninguém havia antecipado durante os testes.

Este cenário revela uma lacuna fundamental entre o comportamento esperado do agente e a experiência real que os usuários enfrentam. O desafio está enraizado na natureza não-determinística dos modelos de linguagem grandes (LLMs). A mesma consulta de um usuário pode gerar diferentes seleções de ferramentas, caminhos de raciocínio distintos e respostas variadas em múltiplas execuções. Isso significa que um único teste bem-sucedido não revela o que normalmente acontece, apenas o que pode acontecer.

Sem uma medição sistemática dessa variabilidade, equipes ficam presas em ciclos de testes manuais e correção reativa de erros. Esse processo consome orçamento em chamadas de API sem oferecer clareza sobre se as mudanças realmente melhoram o desempenho. Toda modificação de prompt se torna arriscada, e uma pergunta fundamental permanece sem resposta: “Este agente é realmente melhor agora?”

Por que Avaliação de Agentes Exige uma Nova Abordagem

Avaliar um agente de IA é fundamentalmente diferente de testar aplicações tradicionais. Quando um usuário envia uma solicitação, uma série de decisões sequenciais ocorre: o agente determina quais ferramentas chamar, executa essas chamadas e gera uma resposta com base nos resultados. Cada etapa introduz possíveis falhas — selecionar a ferramenta errada, usar a ferramenta correta com parâmetros inválidos, ou sintetizar os resultados em uma resposta final incorreta.

Essa avaliação abrangente exige que as equipes definam claramente critérios de avaliação (o que constitui uma seleção correta de ferramenta, parâmetros válidos, uma resposta precisa), construam conjuntos de dados de teste representativos das solicitações reais do usuário, e escolham métodos de pontuação que possam avaliar a qualidade de forma consistente em múltiplas execuções.

A solução repousa em um ciclo contínuo de avaliação: as equipes criam casos de teste, executam-nos contra o agente, avaliam os resultados, analisam as falhas e implementam melhorias. Cada falha se torna um novo caso de teste, perpetuando o ciclo através de cada iteração.

Implementar esse ciclo completamente, porém, exige infraestrutura significativa além da lógica de avaliação em si. As equipes precisam curar conjuntos de dados, selecionar e hospedar modelos de pontuação, gerenciar capacidade de inferência e limites de taxa de API, construir pipelines de dados que transformem rastreamentos de agentes em formatos prontos para avaliação, e criar painéis para visualizar tendências. Para organizações executando múltiplos agentes, essa sobrecarga multiplica-se.

Apresentando Amazon Bedrock AgentCore Evaluations

Para resolver esse problema, a AWS apresentou o Amazon Bedrock AgentCore Evaluations, um serviço totalmente gerenciado lançado em visualização pública no AWS re:Invent 2025 e agora disponível para todos. O serviço assume o controle dos modelos de avaliação, infraestrutura de inferência, pipelines de dados e escalabilidade, permitindo que as equipes se concentrem em melhorar a qualidade dos agentes em vez de construir e manter sistemas de avaliação.

Para avaliadores integrados, cotas de modelo e capacidade de inferência são totalmente gerenciadas. Isso significa que organizações avaliando muitos agentes não consomem suas próprias cotas ou precisam provisionar infraestrutura separada para cargas de trabalho de avaliação.

O serviço examina o comportamento do agente de ponta a ponta usando rastreamentos OpenTelemetry (OTEL) com convenções semânticas de IA generativa. OTEL é um padrão aberto de observabilidade para coletar rastreamentos distribuídos de aplicações, e as convenções semânticas de IA generativa o estendem com campos específicos para interações com modelos de linguagem. Ao construir sobre esse padrão, o serviço funciona consistentemente com agentes desenvolvidos com Strands Agents ou LangGraph, instrumentados com OpenTelemetry e OpenInference.

Três Abordagens de Avaliação

O serviço oferece flexibilidade através de três estratégias de avaliação:

  • LLM-as-a-Judge: Um modelo de linguagem avalia cada interação do agente contra rubricas estruturadas com critérios claramente definidos. O modelo examina o contexto completo da interação — histórico de conversa, ferramentas disponíveis, ferramentas utilizadas, parâmetros passados e instruções do sistema — e fornece raciocínio detalhado antes de atribuir uma pontuação. Cada pontuação vem acompanhada de uma explicação transparente.
  • Avaliação com Ground Truth: Permite comparar respostas do agente contra conjuntos de dados predefinidos ou simulados, especificando respostas esperadas, sequências corretas de ferramentas e resultados que a sessão deveria ter alcançado.
  • Avaliadores de Código Personalizado: As equipes podem trazer uma função AWS Lambda como avaliador, executando lógica customizada para cenários que exigem verificações determinísticas além do que avaliadores baseados em LLM podem oferecer.

Três Princípios Orientadores

A plataforma repousa sobre três princípios que guiam como as equipes devem abordar a avaliação:

  • Desenvolvimento baseado em evidências: Substituir intuição por métricas quantitativas, permitindo que equipes meçam o impacto real de mudanças em vez de debater se uma modificação de prompt “parece melhor”.
  • Avaliação multidimensional: Avaliar diferentes aspectos do comportamento do agente independentemente, permitindo diagnosticar exatamente onde melhorias são necessárias em vez de depender de uma única pontuação agregada.
  • Medição contínua: Conectar as linhas de base de desempenho estabelecidas durante o desenvolvimento diretamente ao monitoramento em produção, garantindo que a qualidade se mantenha conforme as condições reais evoluem.

Dois Modos Complementares: Desenvolvimento e Produção

A jornada de um agente da prototipagem à produção cria duas necessidades de avaliação distintas.

Avaliação On-Demand (Desenvolvimento): Durante o desenvolvimento, as equipes precisam de ambientes controlados onde possam comparar alternativas, testar o agente em conjuntos de dados curados, reproduzir resultados e validar mudanças antes que alcancem usuários. A avaliação on-demand é uma API em tempo real projetada para fluxos de trabalho de desenvolvimento e integração contínua/entrega contínua (CI/CD). As equipes a usam para testar mudanças antes da implantação, executar suítes de avaliação como parte de pipelines de CI/CD, realizar testes de regressão entre compilações e bloquear implantações que não atendem aos limites de qualidade.

Avaliação Online (Produção): Após o agente estar ativo, o desafio muda para monitorar interações reais em escala, onde usuários encontram casos extremos e padrões de interação que nenhuma quantidade de teste pré-implantação antecipou. A avaliação online monitora interações de agentes em funcionamento amostrando continuamente uma porcentagem configurável de rastreamentos e pontuando-os contra avaliadores escolhidos. O serviço lida com leitura de rastreamentos, execução de avaliações e exibição de resultados no painel de Observabilidade do AgentCore powered by Amazon CloudWatch.

Avaliadores Integrados e Personalizados

O serviço fornece 13 avaliadores pré-configurados integrados organizados em três níveis hierárquicos:

  • Nível de Sessão: Taxa de Sucesso de Objetivo — avalia se todos os objetivos do usuário foram completados em uma conversa.
  • Nível de Rastreamento (Trace): Utilidade, Correção, Coerência, Concisão, Fidelidade, Nocividade, Conformidade com Instruções, Relevância da Resposta, Relevância do Contexto, Recusa, Estereotipagem — avalia a qualidade da resposta, precisão, segurança e eficácia da comunicação.
  • Nível de Ferramenta: Precisão da Seleção de Ferramenta, Precisão de Parâmetro da Ferramenta — avalia decisões de seleção de ferramenta e extração de parâmetros.

Avaliar cada nível independentemente ajuda as equipes a diagnosticar se um problema origina-se na seleção de ferramenta, geração de resposta, ou planejamento em nível de sessão. Um agente pode escolher a ferramenta correta com parâmetros precisos mas depois sintetizar a saída da ferramenta inadequadamente em sua resposta final. Esse padrão só se torna visível quando cada nível é avaliado por conta própria.

Para casos especializados, as equipes podem criar avaliadores personalizados usando LLM-as-a-Judge ou código personalizado. Avaliadores personalizados são particularmente valiosos para avaliações específicas do setor, como verificação de conformidade em saúde ou serviços financeiros, verificação de consistência de voz de marca, ou aplicação de padrões de qualidade organizacionais.

Avaliadores Baseados em Código Personalizado

Para cenários onde verificações determinísticas são essenciais, os avaliadores baseados em código funcionam onde avaliadores LLM não conseguem. Um avaliador LLM pode julgar se uma resposta “parece correta”, mas não pode confirmar de forma confiável que uma figura específica de contracheque de R$ 8.333,33 aparece verbatim em uma resposta, ou que uma ID de solicitação gerada segue o formato PTO-2026-NNN.

Avaliadores baseados em código são particularmente úteis em quatro situações:

  • Validação exata de dados: O agente deve retornar valores específicos de uma fonte de dados, como saldos de conta, IDs de transação ou preços.
  • Conformidade de formato: Respostas devem estar em conformidade com restrições estruturais, como limites de comprimento, frases obrigatórias ou esquemas de saída.
  • Aplicação de regras de negócio: Políticas que exigem interpretação precisa, como aplicar corretamente uma regra de desconto em camadas ou citar a cláusula regulatória correta.
  • Monitoramento em produção em alto volume: Invocações de Lambda custam uma fração da inferência de LLM, tornando avaliadores baseados em código a escolha certa quando cada sessão em produção precisa ser pontuada continuamente em escala.

Configurando AgentCore Evaluations

Configurar o serviço envolve três passos: selecionar o agente, escolher avaliadores e definir regras de amostragem. Antes de começar, a equipe deve implantar o agente usando AgentCore Runtime e configurar observabilidade através de instrumentação OpenTelemetry ou OpenInference. O repositório de amostras do AgentCore no GitHub fornece exemplos funcionais.

A configuração de avaliação online ocorre através do console AgentCore Evaluations, onde especificam-se quais avaliadores aplicar, qual fonte de dados monitorar e quais parâmetros de amostragem usar. Resultados de avaliação online são salvos em um grupo de log do CloudWatch dedicado em formato JSON. Após habilitar a configuração, as equipes monitoram resultados através do painel de Observabilidade do AgentCore no CloudWatch, visualizando métricas agregadas de avaliação em nível de agente e perfurando sessões específicas e rastreamentos para ver pontuações individuais e o raciocínio por trás de cada uma.

Para desenvolvimento e testes, a avaliação on-demand permite que as equipes analisem interações específicas selecionando rastreamentos ou spans que desejam examinar, aplicando avaliadores escolhidos e recebendo pontuações detalhadas com explicações. Os resultados são retornados diretamente na resposta da API, limitados a 10 avaliações por chamada.

Avaliação com Ground Truth

Enquanto a pontuação LLM-as-judge indica se as respostas parecem corretas pelos padrões de um modelo de linguagem de uso geral, a avaliação ground truth vai além, permitindo especificar a resposta, as ferramentas que deveriam ter sido chamadas e os resultados que a sessão deveria ter alcançado.

O serviço suporta três tipos de entradas de referência ground truth: expected_response para medir similaridade com a resposta conhecida como correta, expected_trajectory para verificar se o agente chamou as ferramentas corretas na sequência correta, e assertions para confirmar se a sessão satisfez um conjunto de declarações em linguagem natural sobre resultados esperados. Essas entradas são opcionais e independentes, permitindo fornecer todos os três simultaneamente para uma avaliação abrangente ou apenas o subconjunto relevante para um cenário dado.

Melhores Práticas

Critérios de sucesso para um agente tipicamente combinam três dimensões: qualidade das respostas, latência em que os usuários as recebem, e custo da inferência. O AgentCore Evaluations concentra-se na dimensão de qualidade.

  • Desenvolvimento baseado em evidências: Estabelecer linhas de base com dados sintéticos e reais, experimentar rigorosamente, e medir antes e depois de cada mudança. Começar testes cedo e construir o corpus continuamente. Realizar testes A/B com rigor estatístico para cada mudança, executando pelo menos 10 tentativas por questão para avaliar confiabilidade.
  • Avaliação multidimensional: Definir o que sucesso significa cedo, usando critérios multidimensionais que refletem o propósito real do agente. Avaliar cada etapa do fluxo de trabalho do agente, não apenas resultados finais. Envolver especialistas no assunto na concepção de métricas e revisões de controle de qualidade.
  • Medição contínua: Detectar desvio comparando comportamento em produção com linhas de base de teste. Configurar alarmes do CloudWatch em métricas-chave para capturar regressões antes que alcancem um conjunto amplo de usuários. Atualizar regularmente conjuntos de dados de teste conforme casos extremos emergem em produção e requisitos mudam.

Diagnosando Padrões de Avaliação Comuns

Padrões específicos de resultados de avaliação sinalizam problemas distintos. Se pontuações forem baixas em todos os avaliadores, a questão é tipicamente fundamental — revisar pontuações de Relevância do Contexto para determinar se o agente tem acesso às informações necessárias, verificar se o prompt do sistema é claro e completo, e validar que as descrições das ferramentas explicam precisamente quando e como usá-las.

Se pontuações forem inconsistentes para interações similares, isso geralmente aponta para problemas de configuração de avaliação em vez de problemas do agente. Se a Precisão da Seleção de Ferramenta for alta mas a Taxa de Sucesso de Objetivo for baixa, o agente seleciona ferramentas apropriadas mas falha em completar objetivos do usuário — esse padrão sugere que ferramentas adicionais podem ser necessárias ou o agente luta com tarefas exigindo múltiplas chamadas sequenciais de ferramentas.

Próximos Passos

Para explorar o Amazon Bedrock AgentCore Evaluations em detalhes, assista à sessão de lançamento da visualização pública do AWS re:Invent 2025 para um passo a passo com demonstrações ao vivo. Visite o repositório de amostras do Amazon Bedrock AgentCore no GitHub para tutoriais práticos. Para detalhes técnicos sobre configuração e uso de API, consulte a documentação do AgentCore Evaluations. Também é possível revisar limites de serviço e preços.

Fonte

Build reliable AI agents with Amazon Bedrock AgentCore Evaluations (https://aws.amazon.com/blogs/machine-learning/build-reliable-ai-agents-with-amazon-bedrock-agentcore-evaluations/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *