O loop de qualidade de agentes: AgentCore Optimization chega em preview

O problema silencioso de agentes que degradam em produção

Agentes de IA costumam performar bem no lançamento. O problema é que essa qualidade não se mantém por conta própria. Modelos evoluem, o comportamento dos usuários muda, e prompts criados para um contexto específico acabam sendo reutilizados em situações que nunca foram previstas. A qualidade do agente vai caindo — e, na maioria das vezes, ninguém percebe até alguém reclamar.

O fluxo de correção tradicional é bem conhecido: um desenvolvedor lê os traces, formula uma hipótese, reescreve o prompt, testa alguns casos manualmente e publica a correção. Aí o ciclo recomeça — muitas vezes introduzindo um novo problema para outro usuário. É um processo baseado em intuição, não em evidências sistemáticas.

Até agora, o Amazon Bedrock AgentCore já oferecia as peças para depurar manualmente ou construir implementações customizadas: verificar pontuações de avaliação para detectar queda de qualidade, mergulhar nos traces para identificar a causa raiz e atualizar o agente com uma configuração melhorada. O desenvolvedor era o motor de performance — dependendo da própria intuição, sem respaldo sistemático de dados.

Times de ciência dedicados e benchmarks centralizados ajudam, mas não são uma solução prática nem ágil para a maioria das equipes de produto. E mesmo quando essa estrutura existe, ela tende a operar em ciclos semanais ou mensais, enquanto os agentes derivam em produção todos os dias.

O que a AWS anunciou: fechando o loop de qualidade

A AWS anunciou novas capacidades no AgentCore que completam o ciclo de observar, avaliar e melhorar a performance e a qualidade de agentes. São três componentes principais:

  • Recomendações: analisam traces de produção e saídas de avaliação para otimizar o prompt de sistema ou as descrições de ferramentas, com base no avaliador especificado pela equipe.
  • Avaliação em lote (Batch Evaluation): testa a recomendação contra um conjunto de dados de teste pré-definido e reporta pontuações agregadas, identificando regressões nos casos que já são conhecidos. Quando os cenários criados manualmente não são suficientes, também é possível simular um conjunto de dados usando um ator baseado em LLM que simula o papel de um usuário final.
  • Testes A/B: executam uma comparação controlada entre versões do agente por meio do AgentCore Gateway, dividindo o tráfego real de produção na proporção configurada e reportando resultados com intervalos de confiança e significância estatística.

A lógica é direta: as recomendações propõem mudanças, a avaliação em lote e os testes A/B as validam — e juntos eles substituem o ciclo manual de ler traces, chutar correções e publicar no escuro.

“Avaliar e melhorar agentes continuamente é essencial para gerar valor orientado a dados. Processos que antes exigiam semanas de ajuste manual de prompts evoluíram para ciclos rápidos e repetíveis com o AgentCore. Ao derivar recomendações de melhoria a partir de dados de traces de produção e validar seu impacto por meio de testes A/B, as organizações podem otimizar a performance garantindo precisão e efetividade.” — Yoshiharu Okuda, NTT DATA

Como o loop funciona na prática

O fluxo descrito pela AWS se aplica a qualquer tipo de mudança — atualização de modelo, refatoração de prompt, atualização de conjunto de ferramentas ou upgrade de framework. O exemplo utilizado é o cenário de atualização de modelo, mas o padrão é o mesmo.

1. Rastreabilidade ponta a ponta

O AgentCore captura cada chamada de modelo, invocação de ferramenta e etapa de raciocínio como traces compatíveis com OpenTelemetry, gerenciados pelo AgentCore Observability. As avaliações pontuam esses traces automaticamente em dimensões como taxa de sucesso de objetivo, precisão na seleção de ferramentas, utilidade e segurança — usando avaliadores nativos, comparações com ground-truth ou pontuação customizada via LLM-as-judge.

2. Gerar uma recomendação

A equipe aponta a API de Recomendações para o grupo de logs do CloudWatch onde o agente grava seus traces. Em seguida, escolhe o sinal de recompensa — o avaliador que deseja otimizar, seja nativo do AgentCore ou customizado — e define o que otimizar: o prompt de sistema ou as descrições das ferramentas. O AgentCore analisa os traces considerando o sinal de recompensa fornecido e gera uma recomendação para melhorar a performance naquele critério. Para recomendações de descrição de ferramentas, o serviço aprimora apenas a descrição, sem tocar na implementação. O serviço propõe — a equipe decide o que levar adiante.

3. Empacotar a mudança como bundle de configuração

As configurações são empacotadas como bundles — snapshots imutáveis e versionados da configuração do agente, identificados pelo ARN do runtime: ID do modelo, prompt de sistema e descrições das ferramentas. O agente lê sua configuração ativa dinamicamente em tempo de execução via SDK do AgentCore, o que significa que trocar um prompt ou um modelo é uma mudança de configuração, não de código. Cria-se um bundle para a configuração atual e outro para a recomendação. Para mudanças que envolvam código, o caminho é publicar em um endpoint de runtime separado.

4. Validar offline: avaliação em lote

O agente é executado contra um conjunto de dados curado usando o novo bundle. As sessões resultantes são avaliadas em lote e as pontuações agregadas são comparadas com a linha de base. Isso identifica regressões nos casos de uso já mapeados. As equipes costumam integrar a avaliação em lote aos pipelines de Integração e Entrega Contínua (CI/CD) para garantir que nenhuma mudança de configuração chegue à produção sem passar pelos casos conhecidos.

5. Validar com tráfego real: testes A/B

O AgentCore Gateway é configurado para dividir o tráfego real de produção entre duas variantes — a versão atual como controle e a candidata como tratamento. As variantes podem ser diferentes versões de bundle no mesmo runtime (para mudanças apenas de configuração) ou diferentes targets no gateway apontando para endpoints de runtime separados (para mudanças que incluam código). A avaliação online pontua cada sessão com os avaliadores especificados. Os resultados incluem intervalos de confiança e p-values. Quando há dados suficientes para confiar na performance da nova versão, o teste é encerrado e a nova variante é promovida como padrão. Para reverter, basta pausar o teste — o agente volta à configuração anterior.

“O que levava semanas de iteração manual de prompts agora é um ciclo repetível com o AgentCore: gerar uma recomendação a partir de traces de produção, validá-la com tráfego real com significância estatística e publicar a configuração vencedora. Cada ciclo produz os dados de base para o próximo — o processo de melhoria se compõe.” — Masashi Shimizu, Nomura Research Institute

Exemplo prático: o Market Trends Agent

A AWS disponibilizou o Market Trends Agent no GitHub como exemplo de referência — um agente de inteligência de mercado construído para corretores de investimento, cobrindo dados de ações em tempo real, análise setorial, busca de notícias e perfis personalizados de corretores.

Para um agente que atende corretores com diferentes perfis de risco, interesses setoriais e estilos de conversa, a degradação de qualidade é difícil de detectar e ainda mais difícil de corrigir sem as ferramentas certas. O exemplo demonstra o loop completo: gerar uma recomendação que identifica onde o agente falha em personalizar conselhos para a estratégia declarada do corretor ou seleciona a ferramenta errada quando uma consulta abrange múltiplos setores; empacotar a mudança como uma versão de bundle de configuração; validar a correção com avaliação em lote sobre um conjunto curado de conversas; e então fazer um teste A/B da configuração contra sessões reais de corretores com confiança estatística antes de promovê-la para produção.

Para onde o AgentCore Optimization está evoluindo

O preview atual foi projetado para ser acionado pelo desenvolvedor: a equipe escolhe quando gerar uma recomendação, qual avaliador direcionar e se promove o resultado. A visão da AWS é um flywheel onde traces alimentam avaliações, avaliações identificam deriva, recomendações transformam esse sinal em uma mudança concreta, e os testes A/B provam que ela funciona. A configuração vencedora se torna a nova linha de base, e os traces que ela produz são a entrada para o próximo ciclo.

Com o tempo, o flywheel gira com menos esforço. As recomendações passarão a considerar múltiplos avaliadores simultaneamente, evidenciando trade-offs. Também expandirão a superfície de otimização para skills — propondo novas ou refinando as existentes com base no uso em produção. A análise de traces agrupará falhas de produção em padrões que podem ser endereçados antes que se multipliquem. Alarmes de monitoramento poderão disparar automaticamente uma recomendação e validação quando um avaliador cair abaixo de um limiar, entregando o resultado em uma fila de revisão. A equipe decide o que vai para produção — e o sistema faz o trabalho pesado para chegar lá.

Disponibilidade e como começar

As capacidades estão disponíveis em preview hoje pelo Amazon Bedrock AgentCore nas regiões AWS onde o AgentCore Evaluations está disponível. Durante o preview, o AgentCore Optimization tem como alvo prompts de sistema e descrições de ferramentas para agentes publicados no AgentCore Runtime e que utilizam o AgentCore Observability e o AgentCore Evaluations.

Para começar, acesse pelo console ou CLI do AgentCore. Leia a documentação oficial e siga os tutoriais passo a passo disponíveis aqui.

Fonte

Introducing the agent quality loop: AgentCore Optimization now in preview (https://aws.amazon.com/blogs/machine-learning/introducing-the-agent-quality-loop-agentcore-optimization-now-in-preview/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *