IA Agente com Framework Multi-Modelo: Integrando Hugging Face smolagents na AWS

Compreendendo a Evolução da IA Agente

A inteligência artificial evoluiu significativamente. Enquanto os sistemas de conversação tradicionais respondem a perguntas com base em padrões aprendidos, os agentes de IA representam um avanço qualitativo: são capazes de raciocinar complexamente, utilizar ferramentas externas e executar código de forma autônoma para resolver problemas.

Para que essas soluções funcionem eficientemente em ambientes corporativos, é necessário pensar estrategicamente sobre como implantá-las. Diferentes cenários exigem diferentes abordagens: alguns demandam endpoints gerenciados com capacidade de escalabilidade automática, outros precisam de acesso a modelos de fundação poderosos para raciocínio avançado, e há casos em que é essencial contar com opções de implantação em contêiner para integrar customizações específicas.

A biblioteca Python smolagents da Hugging Face foi desenvolvida justamente para simplificar essa construção. Ela permite que você crie e execute agentes inteligentes com apenas algumas linhas de código. Ao integrar essa biblioteca com os serviços gerenciados da AWS, torna-se possível implementar soluções sofisticadas que combinam o melhor dos dois mundos.

A Solução de Saúde como Caso de Uso

Para ilustrar como essa integração funciona na prática, a arquitetura demonstrada utiliza um agente de IA no setor de saúde. Este agente é capaz de processar consultas médicas complexas, integrar conhecimento clínico especializado e oferecer suporte para decisões clínicas, tudo operando dentro dos padrões rigorosos de segurança e conformidade que o setor demanda.

Embora o exemplo seja focado em saúde, essa abordagem se aplica a qualquer indústria onde inteligência especializada em domínios específicos e confiabilidade são críticas: serviços financeiros, manufatura, energia e muitos outros setores.

Arquitetura e Componentes Principais

A solução integra diversos serviços da AWS de forma coordenada:

Amazon SageMaker AI hospeda o modelo BioM-ELECTRA-Large-SQuAD2 para processar consultas médicas especializadas com escalabilidade automática
Amazon Bedrock fornece acesso ao Claude 3.5 Sonnet V2 by Anthropic para tarefas de raciocínio complexo
Amazon OpenSearch Service implementa busca por similaridade vetorial e recuperação de conhecimento contextualizado
Amazon ECS (Elastic Container Service) com AWS Fargate oferece orquestração de contêineres sem servidor
AWS IAM (Identity and Access Management) gerencia segurança e controle de acesso

Um servidor de modelo containerizado também faz parte da solução, permitindo implantação self-hosted do BioM-ELECTRA para integração de ferramentas especializadas.

Design Agnóstico: Flexibilidade de Múltiplos Modelos

Uma das forças dessa arquitetura é seu design agnóstico em relação a modelos, modalidades e ferramentas. A biblioteca smolagents foi estruturada para orquestrar transparentemente entre diferentes backends sem exigir mudanças no código da aplicação.

Os três backends da solução implementam compatibilidade com a Hugging Face Messages API, garantindo que os formatos de requisição e resposta sejam consistentes. Isso significa que você pode escolher qual backend usar baseado nas necessidades operacionais específicas:

SageMaker AI: Ideal para modelos de domínio especializados em ambientes de produção com auto-scaling gerenciado
Amazon Bedrock: Melhor para acesso serverless a modelos de fundação quando você precisa de raciocínio sofisticado
Servidor containerizado: Escolha quando você necessita integração com ferramentas customizadas e controle total da implantação

Inteligência Gerada por Código vs. Abordagens Tradicionais

Um aspecto técnico importante do smolagents é sua abordagem de CodeAgent. Em vez de gerar sequências JSON complexas para orquestração de passos múltiplos, o CodeAgent do smolagents gera blocos de código Python que podem ser executados diretamente.

Compare essas duas abordagens:

Abordagem tradicional (JSON-based):

{
  "action": "search",
  "parameters": {"query": "drug interactions"},
  "next_action": {
    "action": "filter",
    "parameters": {"criteria": "severity > moderate"}
  }
}

Abordagem smolagents (CodeAgent):

# Search and filter in single code block
results = search_tool("drug interactions")
filtered_results = [r for r in results if r.severity > "moderate"]
final_answer(f"Found {len(filtered_results)} severe interactions: {filtered_results}")

Essa geração de código reduz a quantidade de chamadas ao modelo de linguagem, simplifica o desenvolvimento do agente e oferece controle total sobre a lógica de execução.

Configuração Prática: Primeiros Passos

Para implementar essa solução, você precisa de alguns pré-requisitos:

Uma conta AWS com permissões apropriadas para criar roles de IAM, clusters ECS e domínios OpenSearch Service
AWS CLI (Command Line Interface) versão 2.0 ou superior configurada
Python 3.10+ para executar scripts de implantação
Docker instalado e em funcionamento (necessário para ambientes de produção com sandbox seguro)
Acesso às regiões AWS com SageMaker AI, Bedrock e OpenSearch Service

A implementação utiliza Python 3.10+, framework smolagents, transformers 4.28.1+, PyTorch 2.0.0+ e boto3.

Definindo Variáveis de Ambiente

Antes de iniciar a implantação, é necessário configurar variáveis de ambiente para sua região AWS e nomes de recursos:

export AWS_REGION=us-west-2
export SAGEMAKER_ENDPOINT_NAME=healthcare-qa-endpoint-1
export OPENSEARCH_DOMAIN=healthcare-vector-store
export OPENSEARCH_INDEX=medical-knowledge
export BEDROCK_MODEL_ID=anthropic.claude-3-5-sonnet-20241022-v2:0
export SAGEMAKER_MODEL_ID=sultan/BioM-ELECTRA-Large-SQuAD2
export CONTAINERIZED_MODEL_ID=sultan/BioM-ELECTRA-Large-SQuAD2

Você pode verificar se as variáveis foram configuradas corretamente executando:

echo $AWS_REGION
echo $SAGEMAKER_ENDPOINT_NAME

Implantação da Infraestrutura AWS

A implantação pode ser feita de forma automatizada ou passo a passo, conforme preferência. A abordagem automatizada cria todos os componentes de infraestrutura básicos, incluindo o cluster ECS, roles de IAM e o domínio OpenSearch Service, em aproximadamente 15 a 20 minutos.

O repositório GitHub completo da implementação fornece toda a base de código necessária para executar a solução.

Implantando o Endpoint SageMaker AI

O modelo BioM-ELECTRA-Large-SQuAD2 é implantado no SageMaker AI para processar consultas médicas especializadas. A implantação leva entre 5 e 10 minutos. O endpoint é configurado com MAX_LENGTH=512 e TEMPERATURE=0.1 para otimizar respostas em tarefas de resposta a perguntas.

Configurando os Múltiplos Backends

Após ter o SageMaker AI configurado, o próximo passo é ativar o acesso ao Amazon Bedrock para integração com modelos de fundação. O Claude 3.5 Sonnet V2 fica automaticamente disponível em sua conta AWS e pode ser verificado no console do Bedrock sob o catálogo de modelos.

Posteriormente, a base de conhecimento médica é inicializada com seis medicamentos principais e suas embeddings vetoriais armazenadas no OpenSearch Service. Cada medicamento inclui informações sobre efeitos colaterais, requisitos de monitoramento e classificação farmacológica. O sistema suporta busca por similaridade com filtragem por tipo de conteúdo.

Servidor de Modelo Containerizado

Para cenários que exigem implantação self-hosted, um servidor de modelo containerizado é deployado na infraestrutura ECS já criada. Esse servidor usa Docker sandbox para execução segura de código e inclui mecanismos de fallback integrados com a base de dados de conhecimento médico.

Implementando o Agente de Saúde

O agente principal é construído usando a classe SampleTripleHealthcareAgent, que demonstra a integração completa do smolagents com os três backends diferentes. O agente inicializa tanto a instância do vector store quanto os três modelos de backend (SageMaker, Bedrock e containerizado), cada um envolvido com o SampleHealthcareCodeAgent para integração com smolagents.

Os agentes são configurados com max_steps=3 e incluem integração com ferramentas de busca como DuckDuckGo para expandir suas capacidades de pesquisa quando necessário.

Testando a Solução

A solução oferece múltiplas formas de interação com o agente de saúde. Uma interface web baseada em Streamlit fornece experiência interativa. Um Jupyter Notebook permite experimentação interativa. E um script Python puro oferece execução via linha de comando.

O sistema permite que você teste queries médicas específicas em cada um dos três backends. Por exemplo, uma pergunta sobre efeitos colaterais do metformina pode ser roteada para o SageMaker (conhecimento médico especializado), enquanto uma consulta que demande análise complexa de risco cardiovascular entre múltiplos medicamentos seria melhor servida pelo Claude 3.5 Sonnet V2 no Bedrock (raciocínio avançado).

As respostas incluem contexto vetorial do OpenSearch quando disponível, mostrando resultados de matching com scores de similaridade.

Considerações de Produção e Observabilidade

Para implantações em produção, implementar observabilidade é essencial para monitorar performance do agente, rastrear execução completa e verificar confiabilidade. O Amazon Bedrock AgentCore fornece observabilidade com instrumentação automática. Ele captura métricas de sessão, dados de performance, rastreamento de erros e traces completos de execução, incluindo invocações de ferramentas. Você pode consultar mais sobre construir agentes de IA confiáveis com observabilidade do Amazon Bedrock AgentCore.

Aplicações em Outros Setores

Embora demonstrado no setor de saúde, essa arquitetura é extensível a diversos setores que demandam inteligência especializada:

Serviços Financeiros: Agentes para conformidade regulatória, avaliação de risco e detecção de fraude, mantendo rigorosos requisitos de segurança e auditoria
Manufatura e Operações Industriais: Agentes para manutenção preditiva, controle de qualidade e otimização de cadeia de suprimentos, combinando monitoramento de equipamentos com análise complexa
Energia e Utilidades: Agentes para operação de redes, conformidade regulatória e gerenciamento de infraestrutura, integrando previsão de demanda especializada com análise ambiental avançada

Limpeza de Recursos

Para evitar cobranças futuras, é importante remover os recursos criados após completar os testes. Isso inclui deletar o domínio OpenSearch Service, o cluster ECS, o endpoint SageMaker AI e o servidor de modelo containerizado.

Conclusão

A integração entre a biblioteca smolagents da Hugging Face e os serviços gerenciados da AWS oferece uma abordagem poderosa para construir sistemas de IA agente sofisticados. O design agnóstico do smolagents permite orquestração transparente entre SageMaker AI, Amazon Bedrock e servidores containerizados, oferecendo às organizações opções de deployment em vez de abordagens “tamanho único”.

A arquitetura demonstrada com o caso de uso de saúde ilustra como esses componentes trabalham juntos para oferecer inteligência especializada com controles robustos de segurança e conformidade. Essa mesma abordagem se aplica a setores financeiros, manufatura, energia e outras indústrias onde a confiabilidade e o conhecimento de domínio são críticos.

As inovações técnicas principais incluem compatibilidade de API entre backends, integração do framework smolagents e deploy containerizado com AWS Fargate, criando uma solução extensível e pronta para produção.

Fonte

Agentic AI with multi-model framework using Hugging Face smolagents on AWS (https://aws.amazon.com/blogs/machine-learning/agentic-ai-with-multi-model-framework-using-hugging-face-smolagents-on-aws/)