Construindo Agentes de IA Conversacionais Sem Servidor: Claude, LangGraph e MLflow na Nuvem

O Desafio Persistente do Atendimento Ao Cliente Automatizado

Equipes de atendimento ao cliente enfrentam um problema recorrente com as soluções de automação existentes. Assistentes baseados em regras frequentemente frustram usuários com respostas rígidas e inflexíveis. Por outro lado, implementações diretas com modelos de linguagem grandes (LLM) carecem da estrutura necessária para operações comerciais confiáveis.

Quando um cliente precisa consultar o status de um pedido, solicitar um cancelamento ou obter informações sobre um envio, as abordagens tradicionais geralmente falham. Sistemas baseados em regras não conseguem compreender a linguagem natural em suas nuances, enquanto modelos de linguagem puros não mantêm contexto adequadamente em conversas multietapas ou se integram bem com sistemas backend.

A AWS apresentou uma solução que demonstra como combinar capacidades de Amazon Bedrock, LangGraph e MLflow gerenciado no Amazon SageMaker AI para construir agentes conversacionais inteligentes e sem servidor.

Por Que as Abordagens Convencionais Falham

Assistentes de chat baseados em regras costumam seguir árvores de decisão rígidas que não conseguem lidar com as nuances da conversa humana. Se um usuário diz “quero cancelar meu pedido”, o sistema reconhece. Mas se diz “preciso devolver algo que comprei”, o sistema falha porque a frase não corresponde aos padrões predefinidos.

Os modelos de linguagem modernos, por sua vez, oferecem excelente compreensão de linguagem natural, mas apresentam limitações significativas quando usados diretamente. Não mantêm estado de forma natural, não seguem processos multi-etapas adequadamente, requerem orquestração cuidadosa para integração com sistemas externos e podem gerar informações plausíveis mas incorretas quando carecem de conhecimento de domínio específico.

Em um cenário real de atendimento, verificar o status de um pedido envolve várias etapas interdependentes: compreender a intenção do usuário, extrair informações relevantes como número de pedido, validar dados contra sistemas backend, confirmar ações antes da execução e manter contexto ao longo da interação. Sem uma abordagem estruturada, nem sistemas baseados em regras nem modelos de linguagem puros conseguem orquestrar adequadamente esse fluxo.

A Solução: Agentes de IA Estruturados

Agentes de IA são sistemas que combinam as capacidades de compreensão de linguagem natural dos modelos de linguagem com fluxos de trabalho estruturados, integração de ferramentas e observabilidade abrangente. Diferentemente de aplicações simples com LLMs, agentes mantêm estado e contexto entre interações, utilizam ferramentas externas para coletar informações ou executar ações, raciocinam sobre seus próximos passos com base em resultados anteriores e operam com certo grau de autonomia.

Fluxo de Conversa em Três Etapas

O fluxo conversacional apresentado funciona em três fases principais:

Compreensão da Intenção Inicial: O sistema identifica o que o cliente deseja e coleta informações necessárias
Confirmação do Pedido: Apresenta detalhes encontrados e verifica se o cliente realmente quer prosseguir
Resolução: Executa a ação solicitada (como cancelamento) e fornece encerramento da conversa

Componentes Técnicos da Arquitetura

Camada de Inteligência

O Amazon Bedrock funciona como a camada de inteligência, fornecendo acesso a modelos de fundação através de uma API consistente. Este serviço cuida de reconhecimento de intenção (compreender o que o usuário busca), extração de entidades (identificar informações-chave como números de pedidos), geração de linguagem natural (criar respostas contextualmente apropriadas), tomada de decisão (determinar o próximo melhor passo) e coordenação de uso de ferramentas (integração com sistemas externos).

Gerenciamento de Estado e Memória

Amazon DynamoDB gerencia o estado da conversa, armazenando persistentemente o contexto mesmo em caso de interrupções ou reinicializações. O estado mantém identificadores de sessão, histórico completo da conversa, transcrições formatadas otimizadas para janelas de contexto, informações extraídas como números de pedidos e sinalizadores de processo indicando status de confirmação.

Um aspecto importante é o uso de valores Time-To-Live (TTL) que automaticamente expiram conversas após período de inatividade, ajudando a gerenciar custos de armazenamento.

Chamadas de Função para Interação com Sistemas Externos

Em vez de gerar texto livre tentando descrever uma ação, o modelo gera chamadas estruturadas para funções predefinidas com parâmetros específicos. É como fornecer ao modelo de linguagem um conjunto de ferramentas com manuais de instrução, onde ele decide quando usar cada uma e quais informações fornecer.

A implementação define ferramentas que se conectam a um banco de dados Amazon RDS para PostgreSQL: obter usuário para procuras de clientes, obter pedido por ID para detalhes específicos, listar pedidos de um cliente, cancelar pedido e atualizar pedido. Essas ferramentas são definidas com esquemas JSON que fornecem contratos claros para o modelo seguir, reduzindo alucinações ao fornecer informações factuais e mantendo padrões consistentes.

Orquestração com LangGraph

LangGraph fornece a estrutura para construir aplicações com estado usando uma abordagem baseada em grafos direcionados. Cada nó do grafo representa uma fase específica da conversa, e as bordas definem como se mover entre fases com base em lógica condicional.

Essa estrutura oferece rastreamento explícito do estado, separação clara de responsabilidades, roteamento dinâmico baseado em contexto, detecção de ciclos para lidar com padrões repetitivos e arquitetura flexível para extensão.

Observabilidade com MLflow Gerenciado

Aplicações com LLMs apresentam desafios únicos de observabilidade: saídas não-determinísticas (mesma entrada pode gerar diferentes resultados), cadeias complexas com múltiplos modelos e ferramentas interagindo sequencialmente, latência que afeta experiência do usuário e avaliação de qualidade que requer métricas especializadas.

MLflow gerenciado no Amazon SageMaker AI resolve esses desafios através de capacidades de rastreamento que monitoram interações de modelos, latência, uso de tokens e caminhos de conversa. Cada nó conversacional é decorado com rastreamento MLflow que captura automaticamente informações sobre invocações de modelos, métricas de resposta, caminhos de conversa, uso de ferramentas e padrões de erro.

Implementação Arquitetural

Infraestrutura Sem Servidor

A solução implementa um sistema conversacional usando arquitetura baseada em WebSocket para interações em tempo real. Clientes acessam um frontend React hospedado no Amazon Simple Storage Service e entregue pelo Amazon CloudFront. Quando enviam mensagens, o sistema estabelece conexão persistente via Amazon API Gateway com funções AWS Lambda que orquestram o fluxo conversacional.

Essa arquitetura escalável e sem servidor automaticamente adapta-se a variações de carga enquanto mantém eficiência de custos através de precificação por uso.

Estrutura de Nós Conversacionais

Cada nó no grafo conversacional é implementado como função Python que processa o estado atual e retorna estado atualizado. O nó de intenção inicial lida com requisições do usuário, extrai informações-chave e determina próximos passos. O nó de confirmação verifica detalhes encontrados e confirma intenções do cliente. O nó de resolução executa ações necessárias e oferece conclusão natural à conversa.

Os nós seguem padrão consistente: extraem informações relevantes do estado, processam mensagem com o modelo de linguagem, executam ferramentas necessárias, atualizam estado com novas informações e determinam próximo nó no fluxo.

Pré-requisitos e Implantação

Requisitos de Conta e Ambiente

Para construir essa solução, você precisa de uma conta AWS com permissões para criar funções Lambda, tabelas DynamoDB, gateways de API, buckets S3, distribuições CloudFront, instâncias RDS PostgreSQL e recursos de Amazon Virtual Private Cloud. O Bedrock também deve ter acesso habilitado ao Claude 3.5 Sonnet da Anthropic.

No ambiente de desenvolvimento, são necessários: Interface de Linha de Comando AWS instalada, Git e utilitários Docker, Python 3.12 ou posterior, Node.js 20+ e npm, além de AWS Cloud Development Kit CLI instalado.

Para logging, é necessário configurar um papel de Amazon CloudWatch com Amazon Resource Name (ARN) no API Gateway, criando papel AWS Identity and Access Management com permissões apropriadas conforme documentação de permissões e configurando na console do API Gateway.

Guia de Implantação

O processo segue estes passos fundamentais:

1. Clonar e Configurar Projeto

Clone o repositório e estabeleça raiz do projeto:

git clone https://github.com/aws-samples/sample-aws-genai-serverless-orchestration-chatbot-mlflow.git
cd sample-aws-genai-serverless-orchestration-chatbot-mlflow
export PROJECT_ROOT=$(pwd)

2. Bootstrap do Ambiente AWS

Se não realizado anteriormente, faça bootstrap da conta AWS:

cd $PROJECT_ROOT/infra
cdk bootstrap

3. Instalar Dependências

cd $PROJECT_ROOT
make install

4. Compilar e Implantar

cd $PROJECT_ROOT
make deploy

Este comando implanta infraestrutura backend (VPC, função Lambda, banco de dados, MLflow), obtém ARN da função Lambda, implanta frontend com API Gateway WebSocket integrado, recupera URL WebSocket real da pilha implantada e cria/carrega config.json com configuração de tempo de execução no S3.

Limpeza de Recursos

Para evitar cobranças contínuas, limpe recursos quando não mais necessários:

cd $PROJECT_ROOT
make clean

Capacidades Principais Habilitadas

Inteligência Natural

A camada de inteligência compreende e responde a usuários, entendendo intenções mesmo quando expressas de formas variadas. O sistema reconhece contexto, extrai entidades relevantes e gera respostas apropriadas.

Memória de Conversa

O sistema mantém contexto entre múltiplas interações, permitindo conversas coerentes e multi-etapas que se referem a informações anteriormente compartilhadas.

Ação em Sistemas Externos

Através de chamadas estruturadas de função, o agente realiza ações concretas: consulta pedidos, cancela encomendas, atualiza informações e busca dados em sistemas backend.

Orquestração de Fluxos Complexos

LangGraph permite definir fluxos conversacionais explícitos onde cada etapa tem responsabilidade clara e decisões de roteamento são tomadas dinamicamente conforme contexto.

Observabilidade e Rastreamento

MLflow captura toda execução do fluxo agentico, incluindo nós envolvidos, entradas e saídas por nó, latência, chamadas de ferramentas e sequência de conversa. Os dados capturados são visualizados na interface MLflow, fornecendo insights para:

Monitoramento de desempenho em produção
Identificação de oportunidades de otimização
Depuração de falhas e comportamentos inesperados
Medição de impacto comercial e satisfação do cliente

Desenvolvedores conseguem identificar padrões em conversas bem-sucedidas e oportunidades para melhorias contínuas.

Próximos Passos

Para levar agentes conversacionais além dessa implementação inicial, a AWS oferece Amazon Bedrock AgentCore que acelera agentes para produção com memória inteligente e gateway para acesso seguro e controlado a ferramentas e dados. A documentação mostra como MLflow se integra com Bedrock AgentCore Runtime fornecendo observabilidade abrangente no ecossistema de agentes.

Conclusão

Esta arquitetura demonstra como combinar capacidades de raciocínio de modelos de linguagem com orquestração estruturada e observabilidade resulta em agentes conversacionais que fecham a lacuna entre interação em linguagem natural e processos comerciais estruturados.

O sistema permite conversas naturais e multi-turno mantendo contexto entre interações, integra-se perfeitamente com sistemas backend para executar ações reais, oferece observabilidade abrangente que permite monitoramento e otimização contínua, e escala automaticamente com serviços sem servidor ao manter eficiência de custos.

Essa abordagem oferece blueprint para construir soluções sofisticadas de IA conversacional, beneficiando equipes de atendimento ao cliente com melhor experiência de usuário e eficiência operacional aumentada.

Fonte

Build a serverless conversational AI agent using Claude with LangGraph and managed MLflow on Amazon SageMaker AI (https://aws.amazon.com/blogs/machine-learning/build-a-serverless-conversational-ai-agent-using-claude-with-langgraph-and-managed-mlflow-on-amazon-sagemaker-ai/)