Author: Make.com Service User

Construindo Agentes de IA Conversacionais Sem Servidor: Claude, LangGraph e MLflow na Nuvem
O Desafio Persistente do Atendimento Ao Cliente Automatizado

Equipes de atendimento ao cliente enfrentam um problema recorrente com as soluções de automação existentes. Assistentes baseados em regras frequentemente frustram usuários com respostas rígidas e inflexíveis. Por outro lado, implementações diretas com modelos de linguagem grandes (LLM) carecem da estrutura necessária para operações comerciais confiáveis.

Quando um cliente precisa consultar o status de um pedido, solicitar um cancelamento ou obter informações sobre um envio, as abordagens tradicionais geralmente falham. Sistemas baseados em regras não conseguem compreender a linguagem natural em suas nuances, enquanto modelos de linguagem puros não mantêm contexto adequadamente em conversas multietapas ou se integram bem com sistemas backend.

A AWS apresentou uma solução que demonstra como combinar capacidades de Amazon Bedrock, LangGraph e MLflow gerenciado no Amazon SageMaker AI para construir agentes conversacionais inteligentes e sem servidor.

Por Que as Abordagens Convencionais Falham

Assistentes de chat baseados em regras costumam seguir árvores de decisão rígidas que não conseguem lidar com as nuances da conversa humana. Se um usuário diz “quero cancelar meu pedido”, o sistema reconhece. Mas se diz “preciso devolver algo que comprei”, o sistema falha porque a frase não corresponde aos padrões predefinidos.

Os modelos de linguagem modernos, por sua vez, oferecem excelente compreensão de linguagem natural, mas apresentam limitações significativas quando usados diretamente. Não mantêm estado de forma natural, não seguem processos multi-etapas adequadamente, requerem orquestração cuidadosa para integração com sistemas externos e podem gerar informações plausíveis mas incorretas quando carecem de conhecimento de domínio específico.

Em um cenário real de atendimento, verificar o status de um pedido envolve várias etapas interdependentes: compreender a intenção do usuário, extrair informações relevantes como número de pedido, validar dados contra sistemas backend, confirmar ações antes da execução e manter contexto ao longo da interação. Sem uma abordagem estruturada, nem sistemas baseados em regras nem modelos de linguagem puros conseguem orquestrar adequadamente esse fluxo.

A Solução: Agentes de IA Estruturados

Agentes de IA são sistemas que combinam as capacidades de compreensão de linguagem natural dos modelos de linguagem com fluxos de trabalho estruturados, integração de ferramentas e observabilidade abrangente. Diferentemente de aplicações simples com LLMs, agentes mantêm estado e contexto entre interações, utilizam ferramentas externas para coletar informações ou executar ações, raciocinam sobre seus próximos passos com base em resultados anteriores e operam com certo grau de autonomia.

Fluxo de Conversa em Três Etapas

O fluxo conversacional apresentado funciona em três fases principais:
- Compreensão da Intenção Inicial: O sistema identifica o que o cliente deseja e coleta informações necessárias
- Confirmação do Pedido: Apresenta detalhes encontrados e verifica se o cliente realmente quer prosseguir
- Resolução: Executa a ação solicitada (como cancelamento) e fornece encerramento da conversa
Componentes Técnicos da Arquitetura

Camada de Inteligência

O Amazon Bedrock funciona como a camada de inteligência, fornecendo acesso a modelos de fundação através de uma API consistente. Este serviço cuida de reconhecimento de intenção (compreender o que o usuário busca), extração de entidades (identificar informações-chave como números de pedidos), geração de linguagem natural (criar respostas contextualmente apropriadas), tomada de decisão (determinar o próximo melhor passo) e coordenação de uso de ferramentas (integração com sistemas externos).

Gerenciamento de Estado e Memória

Amazon DynamoDB gerencia o estado da conversa, armazenando persistentemente o contexto mesmo em caso de interrupções ou reinicializações. O estado mantém identificadores de sessão, histórico completo da conversa, transcrições formatadas otimizadas para janelas de contexto, informações extraídas como números de pedidos e sinalizadores de processo indicando status de confirmação.

Um aspecto importante é o uso de valores Time-To-Live (TTL) que automaticamente expiram conversas após período de inatividade, ajudando a gerenciar custos de armazenamento.

Chamadas de Função para Interação com Sistemas Externos

Em vez de gerar texto livre tentando descrever uma ação, o modelo gera chamadas estruturadas para funções predefinidas com parâmetros específicos. É como fornecer ao modelo de linguagem um conjunto de ferramentas com manuais de instrução, onde ele decide quando usar cada uma e quais informações fornecer.

A implementação define ferramentas que se conectam a um banco de dados Amazon RDS para PostgreSQL: obter usuário para procuras de clientes, obter pedido por ID para detalhes específicos, listar pedidos de um cliente, cancelar pedido e atualizar pedido. Essas ferramentas são definidas com esquemas JSON que fornecem contratos claros para o modelo seguir, reduzindo alucinações ao fornecer informações factuais e mantendo padrões consistentes.

Orquestração com LangGraph

LangGraph fornece a estrutura para construir aplicações com estado usando uma abordagem baseada em grafos direcionados. Cada nó do grafo representa uma fase específica da conversa, e as bordas definem como se mover entre fases com base em lógica condicional.

Essa estrutura oferece rastreamento explícito do estado, separação clara de responsabilidades, roteamento dinâmico baseado em contexto, detecção de ciclos para lidar com padrões repetitivos e arquitetura flexível para extensão.

Observabilidade com MLflow Gerenciado

Aplicações com LLMs apresentam desafios únicos de observabilidade: saídas não-determinísticas (mesma entrada pode gerar diferentes resultados), cadeias complexas com múltiplos modelos e ferramentas interagindo sequencialmente, latência que afeta experiência do usuário e avaliação de qualidade que requer métricas especializadas.

MLflow gerenciado no Amazon SageMaker AI resolve esses desafios através de capacidades de rastreamento que monitoram interações de modelos, latência, uso de tokens e caminhos de conversa. Cada nó conversacional é decorado com rastreamento MLflow que captura automaticamente informações sobre invocações de modelos, métricas de resposta, caminhos de conversa, uso de ferramentas e padrões de erro.

Implementação Arquitetural

Infraestrutura Sem Servidor

A solução implementa um sistema conversacional usando arquitetura baseada em WebSocket para interações em tempo real. Clientes acessam um frontend React hospedado no Amazon Simple Storage Service e entregue pelo Amazon CloudFront. Quando enviam mensagens, o sistema estabelece conexão persistente via Amazon API Gateway com funções AWS Lambda que orquestram o fluxo conversacional.

Essa arquitetura escalável e sem servidor automaticamente adapta-se a variações de carga enquanto mantém eficiência de custos através de precificação por uso.

Estrutura de Nós Conversacionais

Cada nó no grafo conversacional é implementado como função Python que processa o estado atual e retorna estado atualizado. O nó de intenção inicial lida com requisições do usuário, extrai informações-chave e determina próximos passos. O nó de confirmação verifica detalhes encontrados e confirma intenções do cliente. O nó de resolução executa ações necessárias e oferece conclusão natural à conversa.

Os nós seguem padrão consistente: extraem informações relevantes do estado, processam mensagem com o modelo de linguagem, executam ferramentas necessárias, atualizam estado com novas informações e determinam próximo nó no fluxo.

Pré-requisitos e Implantação

Requisitos de Conta e Ambiente

Para construir essa solução, você precisa de uma conta AWS com permissões para criar funções Lambda, tabelas DynamoDB, gateways de API, buckets S3, distribuições CloudFront, instâncias RDS PostgreSQL e recursos de Amazon Virtual Private Cloud. O Bedrock também deve ter acesso habilitado ao Claude 3.5 Sonnet da Anthropic.

No ambiente de desenvolvimento, são necessários: Interface de Linha de Comando AWS instalada, Git e utilitários Docker, Python 3.12 ou posterior, Node.js 20+ e npm, além de AWS Cloud Development Kit CLI instalado.

Para logging, é necessário configurar um papel de Amazon CloudWatch com Amazon Resource Name (ARN) no API Gateway, criando papel AWS Identity and Access Management com permissões apropriadas conforme documentação de permissões e configurando na console do API Gateway.

Guia de Implantação

O processo segue estes passos fundamentais:

1. Clonar e Configurar Projeto

Clone o repositório e estabeleça raiz do projeto:
```
git clone https://github.com/aws-samples/sample-aws-genai-serverless-orchestration-chatbot-mlflow.git
cd sample-aws-genai-serverless-orchestration-chatbot-mlflow
export PROJECT_ROOT=$(pwd)
```
2. Bootstrap do Ambiente AWS

Se não realizado anteriormente, faça bootstrap da conta AWS:
```
cd $PROJECT_ROOT/infra
cdk bootstrap
```
3. Instalar Dependências
```
cd $PROJECT_ROOT
make install
```
4. Compilar e Implantar
```
cd $PROJECT_ROOT
make deploy
```
Este comando implanta infraestrutura backend (VPC, função Lambda, banco de dados, MLflow), obtém ARN da função Lambda, implanta frontend com API Gateway WebSocket integrado, recupera URL WebSocket real da pilha implantada e cria/carrega config.json com configuração de tempo de execução no S3.

Limpeza de Recursos

Para evitar cobranças contínuas, limpe recursos quando não mais necessários:
```
cd $PROJECT_ROOT
make clean
```
Capacidades Principais Habilitadas

Inteligência Natural

A camada de inteligência compreende e responde a usuários, entendendo intenções mesmo quando expressas de formas variadas. O sistema reconhece contexto, extrai entidades relevantes e gera respostas apropriadas.

Memória de Conversa

O sistema mantém contexto entre múltiplas interações, permitindo conversas coerentes e multi-etapas que se referem a informações anteriormente compartilhadas.

Ação em Sistemas Externos

Através de chamadas estruturadas de função, o agente realiza ações concretas: consulta pedidos, cancela encomendas, atualiza informações e busca dados em sistemas backend.

Orquestração de Fluxos Complexos

LangGraph permite definir fluxos conversacionais explícitos onde cada etapa tem responsabilidade clara e decisões de roteamento são tomadas dinamicamente conforme contexto.

Observabilidade e Rastreamento

MLflow captura toda execução do fluxo agentico, incluindo nós envolvidos, entradas e saídas por nó, latência, chamadas de ferramentas e sequência de conversa. Os dados capturados são visualizados na interface MLflow, fornecendo insights para:
- Monitoramento de desempenho em produção
- Identificação de oportunidades de otimização
- Depuração de falhas e comportamentos inesperados
- Medição de impacto comercial e satisfação do cliente
Desenvolvedores conseguem identificar padrões em conversas bem-sucedidas e oportunidades para melhorias contínuas.

Próximos Passos

Para levar agentes conversacionais além dessa implementação inicial, a AWS oferece Amazon Bedrock AgentCore que acelera agentes para produção com memória inteligente e gateway para acesso seguro e controlado a ferramentas e dados. A documentação mostra como MLflow se integra com Bedrock AgentCore Runtime fornecendo observabilidade abrangente no ecossistema de agentes.

Conclusão

Esta arquitetura demonstra como combinar capacidades de raciocínio de modelos de linguagem com orquestração estruturada e observabilidade resulta em agentes conversacionais que fecham a lacuna entre interação em linguagem natural e processos comerciais estruturados.

O sistema permite conversas naturais e multi-turno mantendo contexto entre interações, integra-se perfeitamente com sistemas backend para executar ações reais, oferece observabilidade abrangente que permite monitoramento e otimização contínua, e escala automaticamente com serviços sem servidor ao manter eficiência de custos.

Essa abordagem oferece blueprint para construir soluções sofisticadas de IA conversacional, beneficiando equipes de atendimento ao cliente com melhor experiência de usuário e eficiência operacional aumentada.

Fonte

Build a serverless conversational AI agent using Claude with LangGraph and managed MLflow on Amazon SageMaker AI (https://aws.amazon.com/blogs/machine-learning/build-a-serverless-conversational-ai-agent-using-claude-with-langgraph-and-managed-mlflow-on-amazon-sagemaker-ai/)
March 3, 2026
Construindo IA especializada sem perder inteligência geral: a mistura de dados do Nova Forge em ação
O dilema da especialização em inteligência artificial

Modelos de linguagem grandes (LLMs) demonstram excelente desempenho em tarefas genéricas, mas encontram dificuldades quando precisam trabalhar com contextos especializados que exigem compreensão de dados proprietários, processos internos e terminologias específicas de cada indústria. Para adaptar esses modelos a contextos organizacionais, as empresas utilizam uma técnica chamada fine-tuning supervisionado.

Existem duas abordagens principais para implementar o fine-tuning supervisionado. A primeira, chamada ajuste eficiente de parâmetros (PEFT – Parameter-Efficient Fine-Tuning), atualiza apenas um subconjunto dos parâmetros do modelo, oferecendo treinamento mais rápido e custos computacionais reduzidos, mantendo melhorias razoáveis de desempenho. A segunda, conhecida como ajuste full-rank, atualiza todos os parâmetros do modelo e incorpora mais conhecimento de domínio que a abordagem anterior.

Porém, o ajuste full-rank enfrenta um problema significativo: o esquecimento catastrófico. À medida que o modelo aprende padrões específicos do domínio, ele perde capacidades gerais como seguir instruções, raciocinar logicamente e acessar conhecimento amplo. Isso cria um dilema para as organizações: escolher entre expertise em domínio ou inteligência geral, limitando a utilidade do modelo em diferentes casos de uso empresariais.

A solução do Nova Forge

A AWS anunciou o Nova Forge, um serviço que permite construir modelos de fronteira personalizados usando a base da família Nova. Os clientes podem começar a partir de checkpoints iniciais do modelo, mesclar dados proprietários com dados de treinamento curados pela AWS, e hospedar seus modelos customizados de forma segura na plataforma AWS.

A principal inovação do Nova Forge reside em sua abordagem de mistura de dados durante o fine-tuning. Diferentemente de simplesmente treinar com dados de domínio específico, a plataforma combina esses dados com conjuntos de treinamento mantidos pela AWS. Essa estratégia oferece duas vantagens importantes: ganhos significativos de desempenho na tarefa especializada mantendo, simultaneamente, capacidades gerais próximas aos níveis originais.

Avaliação prática: classificação de feedback de clientes

O cenário empresarial

Imagine uma grande empresa de comércio eletrônico que recebe milhares de comentários de clientes diariamente. Esses comentários cobrem tópicos variados: qualidade de produtos, experiências de entrega, questões de pagamento, usabilidade do site e interações com atendimento ao cliente. Para operar eficientemente, a empresa precisa de um LLM capaz de classificar automaticamente cada comentário em categorias específicas de ação com alta precisão.

Cada classificação deve ser suficientemente específica para rotear a questão para o departamento correto — logística, finanças, desenvolvimento ou atendimento — e dispara workflows automáticos. Isso requer especialização de domínio. Simultaneamente, o modelo precisa ser capaz de realizar múltiplas funções em toda a organização: gerar respostas para clientes que exigem habilidades gerais de comunicação, realizar análises que requerem raciocínio matemático e lógico, e redigir documentação seguindo diretrizes específicas de formatação.

Metodologia de avaliação

Para testar se o Nova Forge consegue entregar especialização de domínio sem sacrificar capacidades gerais, foi projetado um framework de avaliação dupla medindo desempenho em duas dimensões.

Para avaliar o desempenho específico do domínio, utilizou-se um conjunto de dados real de voz do cliente derivado de avaliações reais, contendo 14.511 amostras de treinamento e 861 amostras de teste. O conjunto reflete dados empresariais em escala de produção e emprega uma taxonomia de quatro níveis, onde o nível 4 representa as categorias folha (alvos finais de classificação). Cada categoria inclui explicação descritiva de seu escopo.

O conjunto de dados apresenta desbalanceamento extremo de classes, típico de ambientes reais de feedback de clientes, o que representa desafio significativo para a acurácia de classificação. Os dados incluem um total de 15.372 comentários de clientes com estrutura hierárquica de 1.420 categorias em total.

Para avaliar capacidades de propósito geral, utilizou-se a divisão de teste pública do benchmark MMLU (Massive Multitask Language Understanding). Esse benchmark abrange disciplinas em humanidades, ciências sociais, ciências exatas e outras áreas importantes para aprendizado. Neste contexto, o MMLU serve como proxy para retenção de capacidades gerais, permitindo medir se o fine-tuning supervisionado melhora o desempenho de domínio ao custo de degradar comportamentos do modelo fundacional.

Resultados do desempenho base

Inicialmente, avaliou-se o desempenho fora da caixa em tarefas de classificação de voz do cliente, sem qualquer fine-tuning específico de tarefa. Foram selecionados para comparação o Amazon Nova 2 Lite, avaliado no Amazon Bedrock, e o Qwen3-30B-A3B, um modelo de código aberto implantado no Amazon Elastic Compute Cloud (Amazon EC2) com vLLM.

Os resultados iniciais revelaram que Nova 2 Lite e Qwen3-30B-A3B demonstram desempenho comparável nessa tarefa específica de domínio, com ambos alcançando pontuações F1 próximas a 0,39. Esses resultados também destacam a dificuldade inerente da tarefa: mesmo modelos fundacionais fortes enfrentam dificuldades com classificação de rótulos refinados quando nenhum dado específico de domínio é fornecido.

Impacto do fine-tuning supervisionado

Em seguida, aplicou-se fine-tuning supervisionado com atualização de todos os parâmetros usando dados de voz do cliente. Todos os modelos foram ajustados usando o mesmo conjunto de dados e configurações de treinamento comparáveis para garantir fairness na comparação.

O Nova 2 Lite foi ajustado usando Amazon SageMaker HyperPod em um cluster com quatro instâncias p5.48xlarge. O modelo Qwen3-30B foi ajustado em Amazon EC2 usando instâncias p6-b200.48xlarge.

Após o fine-tuning com dados de cliente apenas, o Nova 2 Lite alcançou melhoria substancial, com F1 aumentando de 0,387 para 0,5537 — um ganho absoluto de 17 pontos percentuais. Esse resultado coloca o modelo Nova no topo para essa tarefa e torna seu desempenho comparável ao do modelo Qwen3-30B ajustado. Esses resultados confirmam a efetividade do fine-tuning full-rank da Nova para cargas de trabalho complexas de classificação empresarial.

O custo: perda de capacidades gerais

Modelos ajustados para classificação de voz do cliente frequentemente são implantados além de uma única tarefa e integrados em fluxos de trabalho empresariais mais amplos. Preservar capacidades de propósito geral é importante para esses cenários.

Quando o Nova 2 Lite foi ajustado usando apenas dados de cliente, observou-se queda significativa na acurácia do MMLU, de 0,75 para 0,47, indicando perda de capacidades de propósito geral. A degradação foi ainda mais pronunciada para o modelo Qwen, que perdeu amplamente a capacidade de seguir instruções após o ajuste — um comportamento relacionado ao design do prompt de classificação, onde conhecimento de categoria é internalizado através do fine-tuning supervisionado.

A solução: mistura de dados do Nova

Notavelmente, quando a mistura de dados do Nova é aplicada durante o fine-tuning, o Nova 2 Lite retém desempenho geral próximo ao baseline. A acurácia MMLU permanece em 0,74, apenas 0,01 abaixo do baseline original, enquanto a melhoria F1 do VOC ainda alcança 12 pontos (0,38 → 0,50).

Isso valida que a mistura de dados do Nova é um mecanismo prático e efetivo para mitigar o esquecimento catastrófico enquanto preserva desempenho de domínio. A estratégia combina 75% de dados de cliente com 25% de dados curados da Nova durante o treinamento, permitindo que o modelo aprenda padrões específicos do domínio mantendo capacidades gerais fundamentais.

Recomendações práticas para implementação

Com base nesses achados, especialistas recomendam as seguintes práticas ao utilizar o Nova Forge:
- Utilize fine-tuning supervisionado para maximizar desempenho em domínio para tarefas complexas ou altamente customizadas
- Aplique mistura de dados do Nova quando modelos forem esperados para suportar múltiplos fluxos de trabalho de propósito geral em produção, reduzindo o risco de esquecimento catastrófico
Juntas, essas práticas equilibram customização de modelo com robustez em produção, permitindo implantação mais confiável de modelos ajustados em ambientes empresariais.

Capacidades adicionais e próximos passos

Além da mistura de dados, o Nova Forge oferece benefícios complementares. Clientes têm acesso a checkpoints do modelo em todas as fases do desenvolvimento e podem executar aprendizado por reforço com funções de recompensa customizadas em seus ambientes. Para experimentar essa abordagem, consulte a documentação do Nova Forge para detalhes técnicos completos.

O Amazon SageMaker HyperPod oferece, já nativamente, receitas de avaliação prontas que simplificam a avaliação MMLU com configuração mínima, tornando o processo de validação de retenção de capacidades gerais mais acessível para equipes de machine learning.

Conclusão

A apresentação do Nova Forge demonstra como organizações podem construir modelos de IA especializados sem sacrificar inteligência geral através das capacidades de mistura de dados. Dependendo dos casos de uso e objetivos de negócio específicos, a plataforma oferece uma abordagem equilibrada que resolve um dos maiores desafios do fine-tuning em ambientes empresariais: manter o modelo útil em múltiplos contextos enquanto o especializa para tarefas críticas.

Fonte

Building specialized AI without sacrificing intelligence: Nova Forge data mixing in action (https://aws.amazon.com/blogs/machine-learning/building-specialized-ai-without-sacrificing-intelligence-nova-forge-data-mixing-in-action/)
March 3, 2026
IAM em Servidores MCP Gerenciados pela AWS: Controle de Acesso para Agentes de IA
Introdução: Agentes de IA e Controle de Acesso na AWS

Conforme agentes de IA se integram nos fluxos de trabalho de desenvolvimento na Amazon Web Services (AWS), surge um desafio importante: como conceder a esses agentes permissões para operar com recursos AWS sem criar modelos de controle de acesso paralelos e sem comprometer a segurança? A AWS respondeu a essa demanda durante o evento re:Invent 2025, apresentando quatro servidores gerenciados do Protocolo de Contexto do Modelo (MCP) em fase de visualização prévia.

A abordagem inovadora da plataforma oferece flexibilidade significativa: os agentes de IA trabalham com suas credenciais AWS existentes, aproveitando as mesmas políticas de Identidade e Acesso (IAM) já estabelecidas. Ao mesmo tempo, as organizações ganham a capacidade de implementar controles de governança específicos para diferenciar chamadas de API realizadas por agentes de IA daquelas executadas diretamente por desenvolvedores.

Os Servidores MCP Gerenciados da AWS

A AWS lançou quatro servidores remotos gerenciados do MCP: AWS, EKS e ECS, além do SageMaker. Diferentemente das implementações locais, esses servidores são hospedados e gerenciados pela AWS, eliminando a necessidade de instalação e manutenção manual. A plataforma oferece atualizações automáticas, resiliência, escalabilidade e auditoria completa através do AWS CloudTrail.

Por exemplo, o AWS MCP Server permite aos agentes de IA acessar documentação de AWS e executar chamadas para mais de 15 mil APIs disponíveis, possibilitando que realizem tarefas complexas e em múltiplas etapas, como configurar redes privadas virtuais (VPCs) ou estabelecer alarmes no Amazon CloudWatch.

Contextos de IAM Padronizados: O Cerne do Controle

O ponto central da solução reside em dois contextos de IAM padronizados que funcionam consistentemente em todos os servidores MCP gerenciados pela AWS:

As Duas Chaves de Contexto Principais

aws:ViaAWSMCPService (booleano) — Assume o valor verdadeiro quando a requisição provém através de um servidor MCP gerenciado pela AWS. Utilize essa chave para permitir ou negar todas as ações iniciadas pelo MCP.

aws:CalledViaAWSMCP (cadeia de texto, valor único) — Contém o identificador do serviço principal do servidor MCP (por exemplo, aws-mcp.amazonaws.com, eks-mcp.amazonaws.com, ecs-mcp.amazonaws.com). Empregue essa chave quando precisar permitir ou negar ações originadas de servidores MCP específicos. Conforme novos servidores MCP forem disponibilizados, esse campo incorporará seus identificadores, permitindo configurar acesso refinado aos recursos AWS através de políticas de IAM e de controle de serviço (SCP).

Implementando Políticas de Segurança em Camadas

Para organizações que desejam desabilitar completamente o acesso via servidores MCP em toda a organização ou em unidades organizacionais específicas, é possível utilizar uma política de controle de serviço (SCP) para negar ações quando acessadas através dos servidores MCP:
```
{ "Version": "2012-10-17", "Statement": [ { "Sid": "DenyAllActionsViaMCP", "Effect": "Deny", "Action": "*", "Resource": "*", "Condition": { "Bool": { "aws:ViaAWSMCPService": "true" } } } ] }
```
Em outro cenário, você pode autorizar agentes de IA utilizando o AWS MCP Server a ler baldes do Amazon Simple Storage Service (Amazon S3), mas recusar operações de exclusão. O AWS MCP Server fornece a ferramenta aws___call_aws, capaz de executar qualquer operação de API da AWS, incluindo operações de S3:
```
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowS3ReadOperations", "Effect": "Allow", "Action": [ "s3:GetObject", "s3:ListBucket" ], "Resource": "*" }, { "Sid": "DenyDeleteWhenAccessedViaMCP", "Effect": "Deny", "Action": [ "s3:DeleteObject", "s3:DeleteBucket" ], "Resource": "*", "Condition": { "Bool": { "aws:ViaAWSMCPService": "true" } } } ] }
```
Você também pode restringir o acesso apenas a servidores MCP específicos. Por ilustração, permitir operações EKS somente quando chamadas através do servidor MCP para EKS, não através do servidor MCP geral da AWS:
```
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowEKSOperationsViaEKSMCP", "Effect": "Allow", "Action": "eks:*", "Resource": "*", "Condition": { "StringEquals": { "aws:CalledViaAWSMCP": "eks-mcp.amazonaws.com" } } }, { "Sid": "DenyEKSOperationsViaOtherMCP", "Effect": "Deny", "Action": "eks:*", "Resource": "*", "Condition": { "StringNotEquals": { "aws:CalledViaAWSMCP": "eks-mcp.amazonaws.com" } } } ] }
```
Simplificação do Modelo de Autorização

Baseando-se em retorno dos clientes, a AWS está simplificando o modelo de autorização para funcionar de forma equivalente ao AWS Command Line Interface (AWS CLI) e aos SDKs que você já utiliza. A partir de breve, deixará de ser necessário separar ações de IAM específicas do MCP (como aws-mcp:InvokeMCP) para interagir com servidores MCP gerenciados pela AWS.

Nessa abordagem revisada, o servidor MCP adiciona os contextos padronizados de IAM (aws:ViaAWSMCPService e aws:CalledViaAWSMCP) à sua requisição e a encaminha ao serviço AWS a jusante. O servidor MCP continua autenticando a requisição utilizando SigV4 como antes. Posteriormente, o serviço a jusante realiza a verificação de autorização com base em suas políticas de IAM vigentes, que podem referenciar essas chaves de contexto para implementar controle refinado.

Isso signifi que seus agentes de IA funcionam com suas credenciais AWS existentes e com as permissões de nível de serviço, dispensando a necessidade de ações de IAM isoladas para MCP e diminuindo a complexidade operacional.

Fluxo de autorização para servidores MCP gerenciados — fonte: Aws

Segurança em Profundidade com VPC Endpoints

A AWS está desenvolvendo suporte para pontos de extremidade de nuvem privada virtual (VPC endpoints) nos servidores MCP gerenciados, atendendo à demanda de clientes em setores regulados que exigem controles a nível de rede. Organizações em segmentos como serviços financeiros e saúde necessitam de comunicação via rede privada para cumprir mandatos de conformidade.

Com os VPC endpoints, todo o tráfego de agentes de IA permanece na rede privada, eliminando exposição através da internet pública. Quando você configura um ponto de extremidade VPC, o servidor MCP realiza uma verificação de autorização no nível do endpoint VPC antes de encaminhar requisições aos serviços AWS a jusante. Isso estabelece uma estratégia de defesa em profundidade, onde você controla acesso tanto no perímetro de rede (VPC endpoint) quanto no nível de serviço (políticas de IAM).

Você pode combinar VPC endpoints com as chaves de contexto aws:ViaAWSMCPService e aws:CalledViaAWSMCP para implantar controles de segurança em camadas que satisfaçam os critérios específicos de governança e conformidade da sua organização. Detalhes adicionais sobre chaves de contexto e padrões de exemplo estarão disponíveis quando o suporte para VPC endpoints for lançado.

Considerações Importantes para Implementação

Ao executar a autorização de IAM para servidores MCP, você precisa tomar decisões sobre padrões de implementação, design de políticas e práticas operacionais. As seguintes recomendações podem ajudar na escolha da abordagem correta para seu ambiente:

Desenho de Políticas de IAM

Conceda apenas o acesso necessário e refine as políticas regularmente, removendo permissões não utilizadas ao longo do tempo. Use as chaves de contexto para diferenciar chamadas através de soluções de IA de ações diretas de desenvolvedores, mantendo uma postura de segurança coerente em sua infraestrutura.

Segurança e Conformidade

Os VPC endpoints ajudam a atender aos requisitos de comunicação de rede privada em setores regulados. Eles proporcionam um mecanismo adicional de segurança para ambientes que enfrentam exigências estritas de isolamento de rede e conformidade regulatória.

Iniciando a Jornada

Comece com o padrão de implementação que se alinha às suas necessidades atuais. Inicie com políticas de IAM restritivas e flexibilize-as conforme você compreenda melhor os requisitos de seus agentes de IA. Monitore os registros do CloudTrail para observar quais ações seus agentes de IA realizam e utilize esses dados para refinar suas políticas progressivamente.

Conclusão

A AWS entrega às organizações o controle necessário para governar o acesso de agentes de IA aos recursos AWS através dos Servidores MCP Gerenciados, utilizando as mesmas políticas de IAM e ferramentas nas quais você já confia. Os contextos padronizados de IAM (aws:ViaAWSMCPService e aws:CalledViaAWSMCP) estão disponíveis em todos os servidores MCP gerenciados pela AWS, oferecendo controle granular para diferenciar chamadas via soluções de IA de ações iniciadas por pessoas em nível de serviço.

Em lançamentos futuros, os servidores MCP gerenciados da AWS funcionarão sem a necessidade de ações de IAM isoladas através de endpoints públicos, simplificando a gestão de políticas de IAM. Haverá também suporte para VPC endpoints, com segurança aprimorada mediante autorização em duas fases e controles de perímetro de rede para organizações que exigem restrições de acesso adicionais.

Consulte a documentação específica de seu servidor MCP gerenciado para confirmar se oferece suporte ao novo modelo de autorização de endpoint público e aos VPC endpoints. Seja você desenvolvendo assistentes de codificação com IA ou construindo aplicações com agentes autônomos, comece a implementar esses controles hoje para proteger seus fluxos de trabalho de IA, mantendo ao mesmo tempo a flexibilidade de definir regras de acesso que reflitam a postura de segurança da sua organização.

Fonte

Understanding IAM for Managed AWS MCP Servers (https://aws.amazon.com/blogs/security/understanding-iam-for-managed-aws-mcp-servers/)
March 3, 2026
AWS anuncia preços para Controles de Criptografia em VPC
Controles de Criptografia em VPC ganham modelo de precificação

A AWS anunciou a transição para um modelo de precificação para os Controles de Criptografia em VPC, um recurso de segurança e conformidade que permite às organizações auditar e aplicar criptografia em trânsito para todos os fluxos de tráfego dentro de e entre Nuvens Privadas Virtuais (VPCs) em uma região.

Como funcionam os Controles de Criptografia em VPC

O recurso oferece dois modos de operação distintos:
- Modo Monitor: detecta a presença de qualquer tráfego não criptografado dentro da VPC, permitindo uma análise do cenário atual sem impor restrições.
- Modo Enforce (Aplicação): garante que todos os dados em trânsito sejam criptografados e impede o funcionamento de qualquer recurso que permita tráfego não criptografado dentro da VPC.
Modelo de precificação a partir de março de 2026

A partir de 1º de março de 2026, os Controles de Criptografia em VPC deixaram o período de preview gratuito e passaram a funcionar sob um modelo de preço por hora. A cobrança segue a seguinte lógica:
- Cada VPC não vazia (aquela que possui interfaces de rede) com Controles de Criptografia habilitados em modo monitor ou modo enforce será cobrada por uma taxa horária fixa.
- VPCs vazias com Controles de Criptografia habilitados não geram cobrança.
- Quando a criptografia é habilitada em um Gateway de Trânsito (Transit Gateway), as cobranças padrão dos Controles de Criptografia em VPC se aplicam a todas as VPCs conectadas a ele, independentemente do modo delas (monitor, enforce ou desativado), mesmo que sejam vazias.
Próximos passos

Para compreender melhor como funcionam os Controles de Criptografia em VPC e consultar os preços detalhados por região, a AWS disponibiliza documentação sobre Controles de Criptografia em VPC e a página de precificação de VPC, onde é possível encontrar as informações mais atualizadas para planejar o investimento em segurança de dados em trânsito.

Fonte

AWS announces pricing for VPC Encryption Controls (https://aws.amazon.com/about-aws/whats-new/2026/03/vpc-encryption-controls-pricing/)
March 2, 2026
Amazon Bedrock agora suporta o formato Converse API em processamento em lote

O que mudou no Amazon Bedrock

A AWS anunciou uma novidade importante para quem trabalha com processamento em lote (batch inference) no Amazon Bedrock. A partir de agora, o serviço passou a suportar a Converse API como tipo de invocação de modelo. Essa mudança representa um avanço significativo em termos de padronização e flexibilidade.

Anteriormente, quando você criava um job de batch inference, era necessário usar formatos de solicitação específicos para cada modelo, trabalhando através da API InvokeModel. Isso exigia conhecimento particular de cada provedor e tornava a transição entre diferentes modelos mais complexa do que deveria ser.

Benefícios da mudança

Formato unificado e consistente

Com o suporte à Converse API no batch inference, você agora pode utilizar um formato padronizado e independente de modelo. Ao criar um job de batch inference, basta selecionar a Converse como tipo de invocação e estruturar seus dados de entrada usando o formato de solicitação padrão da Converse API. As respostas também seguem o padrão de formato da Converse API.

Simplificação do gerenciamento de prompts

Um dos grandes diferenciais dessa atualização é a possibilidade de usar o mesmo formato de solicitação unificado tanto para inferência em tempo real quanto para processamento em lote. Isso reduz significativamente o esforço necessário para gerenciar prompts e diminui a complexidade ao alternar entre diferentes modelos de IA.

Como começar

A configuração do tipo de invocação Converse está disponível tanto através do console do Amazon Bedrock quanto via API. Esse recurso está disponível em todas as regiões AWS que suportam batch inference no Amazon Bedrock.

Para conhecer os detalhes técnicos e colocar a funcionalidade em prática, consulte a documentação oficial do Amazon Bedrock User Guide, especificamente nos artigos sobre criação de jobs de batch inference e formatação e upload de dados para batch inference.

Impacto prático para desenvolvedores

Essa mudança simplifica o desenvolvimento de aplicações que utilizam modelos de IA. Desenvolvedores e arquitetos brasileiros que trabalham com AWS podem agora manter uma única estrutura de solicitação para seus fluxos de trabalho, independentemente de estar fazendo chamadas em tempo real ou processando grandes volumes de dados em lote. Isso representa economia de tempo de desenvolvimento e redução de erros decorrentes de incompatibilidades de formato.

Fonte

Amazon Bedrock batch inference now supports the Converse API format (https://aws.amazon.com/about-aws/whats-new/2026/02/amazon-bedrock-batch-inference-supports-converse-api-format/)

February 28, 2026
AWS Network Firewall agora notifica mudanças de estado através do Amazon EventBridge

Integração que traz visibilidade em tempo real

A AWS anunciou uma importante evolução no Network Firewall: agora o serviço se integra com o Amazon EventBridge para entregar notificações em tempo real sobre mudanças de estado e atualizações de configuração do firewall. Essa integração abre novas possibilidades para quem trabalha com infraestrutura de segurança de rede na nuvem.

O que muda com essa integração

A nova capacidade permite monitorar operações críticas do firewall, incluindo atualizações de configuração e modificações de status de endpoints em toda sua infraestrutura de segurança de rede. Com a integração ao EventBridge, você ganha visibilidade imediata sobre mudanças que afetam as Regras Gerenciadas pela AWS, Regras Gerenciadas por Parceiros e as configurações do firewall.

Automatização e resposta rápida

Com a integração ao EventBridge, surge a possibilidade de construir fluxos de trabalho automatizados para diferentes tipos de resposta. É possível enviar notificações através do Amazon SNS, criar tickets automaticamente em sistemas de gerenciamento de serviços de TI (ITSM), ou conectar com soluções externas de Gerenciamento de Informações e Eventos de Segurança (SIEM).

Essa abordagem helps manter melhor consciência operacional da sua infraestrutura de segurança de rede e permite responder com rapidez a mudanças de configuração ou problemas potenciais.

Disponibilidade

As notificações de mudança de estado do AWS Network Firewall através do Amazon EventBridge estão disponíveis em todas as regiões da AWS onde o Network Firewall e o EventBridge já funcionam. Para aprofundar sobre essa integração, consulte a documentação do AWS Network Firewall. Detalhes adicionais sobre o Amazon EventBridge estão disponíveis na documentação do Amazon EventBridge.

Fonte

AWS Network Firewall now supports firewall state change notifications through Amazon EventBridge (https://aws.amazon.com/about-aws/whats-new/2026/02/firewall-state-change-notifications/)

February 28, 2026
EC2 Image Builder: Melhorias em Políticas de Ciclo de Vida com Suporte a Wildcards e IAM Simplificado

O que mudou no EC2 Image Builder

A AWS anunciou melhorias significativas no EC2 Image Builder, o serviço responsável por automatizar a criação, distribuição e gerenciamento de imagens de máquinas virtuais personalizadas na plataforma. As novidades focam em dois pontos críticos: suporte a padrões wildcard em políticas de ciclo de vida e simplificação no processo de criação de funções de Controle de Acesso (IAM — Identity and Access Management).

Suporte a Wildcards em Políticas de Ciclo de Vida

O Desafio Anterior

Antes dessa atualização, gerenciar o ciclo de vida de múltiplas imagens exigia criar políticas separadas para cada nova receita de imagem, ou selecionar manualmente cada receita individual. Conforme a infraestrutura crescia e novas receitas eram adicionadas, essa abordagem manual se tornava impraticável e gerava sobrecarga operacional.

A Nova Solução com Wildcards

Com o suporte a padrões wildcard, você pode agora definir expressões como my-recipe-1.x.x em uma única política de ciclo de vida. Isso aplica automaticamente a política a todas as receitas correspondentes — inclusive àquelas que forem criadas no futuro. Essa abordagem reduz a necessidade de intervenção manual e permite que políticas de ciclo de vida escaem naturalmente conforme sua infraestrutura evolui.

Simplificação na Criação de Funções IAM

O Desafio Anterior

Criar funções IAM para gerenciamento de ciclo de vida exigia configurar manualmente todas as permissões necessárias. Esse processo era propenso a erros de configuração e consumia tempo valioso do administrador, mesmo para ambientes padronizados.

A Nova Solução

Agora, ao criar uma nova função IAM diretamente no console do EC2 Image Builder, a AWS popula automaticamente as permissões padrão necessárias. Essa automação reduz significativamente o tempo de configuração e minimiza a possibilidade de erros de permissionamento, tornando o onboarding mais rápido e seguro.

Impacto na Operação em Escala

Combinadas, essas duas melhorias simplificam tanto o processo inicial de integração quanto a manutenção contínua de políticas de ciclo de vida em larga escala. A redução de sobrecarga operacional permite que equipes se concentrem em aspectos mais estratégicos da gestão de imagens, em vez de lidar com configurações repetitivas.

As Políticas de Ciclo de Vida estão disponíveis em todas as regiões comerciais da AWS. Para aprofundar seus conhecimentos, consulte a documentação completa sobre gerenciamento de ciclo de vida de imagens.

Fonte

EC2 Image Builder enhances lifecycle policies with wildcard support and simplified IAM (https://aws.amazon.com/about-aws/whats-new/2026/02/ec2-image-builder-lifecycle-enhancements/)

February 28, 2026
AWS Security Hub lança plano Extended com soluções de parceiros em modelo de pagamento conforme o uso

Um novo modelo de segurança simplificado

A AWS anunciou a disponibilidade geral do AWS Security Hub Extended, um plano inovador que integra as capacidades de detecção da AWS com soluções de segurança de parceiros selecionados. O objetivo é transformar a complexa tarefa de gerenciar múltiplos fornecedores e ciclos de compra prolongados em uma experiência unificada através de um único vendedor.

Essa abordagem reconhece um desafio real enfrentado pelas empresas: manter relacionamentos com diversos fornecedores de segurança, negociar contratos individuais e gerenciar faturas separadas consome tempo, recursos e aumenta a complexidade operacional. O Security Hub Extended busca resolver esses problemas ao consolidar as melhores soluções de detecção da AWS com produtos curados de parceiros confiáveis.

Três vantagens principais

Simplificação da aquisição e procurement

O plano integra o uso de múltiplas soluções em um único documento de faturamento, reduzindo significativamente a complexidade administrativa. Clientes que contratam o suporte AWS Enterprise também recebem suporte unificado de Nível 1 da AWS, eliminando a necessidade de escalações para múltiplos fornecedores. Apesar dessa consolidação, cada provedor mantém acesso direto, preservando sua expertise específica de domínio.

Proteção mais abrangente

O Security Hub Extended reúne as capacidades de detecção nativas da AWS com soluções de parceiros em categorias estratégicas: proteção de endpoint, gerenciamento de identidades, segurança de email, proteção de rede, segurança de dados, proteção de navegador, segurança em nuvem, segurança com Inteligência Artificial (IA) e operações de segurança. Essa cobertura ampla permite estabelecer defesas mais robustas e coordenadas.

Eficiência operacional aprimorada

As descobertas de segurança são padronizadas em um formato único, oferecendo visibilidade centralizada em todo o ambiente. Isso reduz significativamente o esforço manual necessário para integrar ferramentas de diferentes fornecedores e normalizar dados de múltiplas fontes.

Flexibilidade e modelo de preços

Os clientes acessam e avaliam soluções de parceiros diretamente através do console do Security Hub, selecionando apenas as soluções necessárias. O modelo oferece opções de preço flexível: pagamento conforme o uso ou taxas fixas mensais. Não há compromissos de longo prazo ou investimentos iniciais obrigatórios, permitindo que as empresas adaptem sua postura de segurança conforme suas necessidades evoluem.

Como a AWS atua como fornecedora de registro, o plano Extended pode ser elegível para oportunidades de precificação privada da AWS, aumentando ainda mais a flexibilidade na negociação de contratos e consolidação de faturas.

Próximos passos

O Security Hub Extended está disponível nas regiões comerciais da AWS onde o Security Hub funciona. Para consultar a lista completa de regiões, acesse a tabela de regiões AWS. Informações detalhadas sobre preços estão disponíveis na página de preços do Security Hub, e para começar, visite o produto.

Fonte

AWS Security Hub launches Extended plan for pay-as-you-go partner solutions (https://aws.amazon.com/about-aws/whats-new/2026/02/sec-hub-extended/)

February 27, 2026
Agentes de Segurança em Rede: Como a IA Está Transformando os Testes de Penetração Automatizados
Entendendo os Agentes de IA de Última Geração

Durante anos, os agentes de inteligência artificial enfrentaram limitações significativas que os impediam de executar tarefas complexas de forma independente. Eles não conseguiam reter informações aprendidas ao longo do tempo, operavam apenas em períodos curtos sem supervisão contínua, e dependiam constantemente de intervenção humana. A situação começou a mudar com o desenvolvimento dos chamados agentes de fronteira—uma nova categoria de IA capaz de realizar raciocínio complexo, planejamento em múltiplas etapas e execução autônoma por períodos estendidos de horas ou até dias.

Essa evolução abriu caminho para uma estratégia poderosa: a colaboração entre múltiplos agentes especializados. Quando diversos agentes trabalham juntos, podem resolver fluxos de trabalho intrincados que exigem diferentes tipos de conhecimento. No desenvolvimento de software, por exemplo, agentes podem se especializarem em geração de código, revisão e testes. Em pesquisa científica, colaboram em revisão bibliográfica, design experimental e análise de dados. E na cibersegurança, agentes diferentes podem se focar em reconhecimento de sistemas, análise de vulnerabilidades e validação de exploits.

Aplicação em Testes de Penetração Automatizados

Os testes de penetração tradicionais são uma atividade cara e demorada. Profissionais de segurança precisam investigar manualmente cada camada da aplicação, um processo que frequentemente consome semanas de trabalho especializado. Embora ferramentas de teste de segurança e scanners de vulnerabilidades existam há décadas, elas têm limitações claras: funcionam com lógica predefinida e não se adaptam bem a contextos específicos das aplicações.

Com os avanços recentes em modelos de linguagem de grande escala (LLMs, do inglês Large Language Models), os agentes de fronteira trouxeram uma perspectiva diferente. Eles conseguem raciocinar sobre o comportamento de aplicações, adaptar suas estratégias conforme recebem feedback, e compreender o contexto de formas que as ferramentas tradicionais não conseguem.

A AWS desenvolveu um sistema multi-agente especializado para testes de penetração. O conceito funciona assim: em vez de um único agente tentar resolver tudo, múltiplos agentes especializados trabalham em conjunto. Um agente mapeia a superfície de ataque da aplicação, enquanto outros analisam falhas na lógica de negócio, validam descobertas e priorizam vulnerabilidades conforme a possibilidade real de exploração. Essa priorização combina tentativas de exploração reais executadas por agentes da rede, re-validação independente por validadores especializados, e uma pontuação baseada em IA segundo o Sistema Comum de Pontuação de Vulnerabilidades (CVSS, do inglês Common Vulnerability Scoring System).

Arquitetura do Sistema de Testes de Penetração

O sistema implementado segue uma estrutura bem definida, com componentes que trabalham sequencialmente para construir uma análise de segurança progressivamente mais profunda.

Fase de Autenticação e Acesso Inicial

Tudo começa com um componente inteligente de autenticação. Este elemento combina raciocínio baseado em LLM com mecanismos determinísticos para lidar com diferentes arquiteturas de aplicações. Ele localiza páginas de login, tenta credenciais fornecidas e mantém sessões autenticadas para as fases de teste subsequentes. O sistema se adapta automaticamente a diferentes estruturas de aplicação e ambientes alvo, usando ferramentas de navegação web. Os desenvolvedores também podem fornecer um prompt de autenticação personalizado se precisarem otimizar o processo para sua aplicação específica.

Fase de Varredura Baseline

Após a autenticação bem-sucedida, o sistema inicia uma varredura de cobertura abrangente através da execução paralela de scanners especializados. Em testes sem acesso ao código-fonte (black-box), um scanner de rede executa testes de segurança de aplicações web automatizados, gerando interações de tráfego bruto e identificando endpoints potencialmente vulneráveis. Já em testes com acesso ao código (white-box), um scanner adicional realiza análise profunda do código-fonte quando repositórios estão disponíveis, produzindo documentação descritiva em múltiplas categorias. Scanners especializados complementam essas capacidades para identificar vulnerabilidades em diferentes dimensões e estabelecer uma cobertura inicial sólida.

Exploração em Múltiplas Fases

O sistema emprega duas abordagens de exploração distintas que trabalham em conjunto. A execução gerenciada utiliza tarefas estáticas predefinidas cobrindo categorias principais de risco como scripts entre sites (XSS), referências diretas inseguras a objetos (IDOR), escalação de privilégios e outras. Este componente ajuda sistematicamente a garantir cobertura abrangente ao executar tarefas curadas para cada tipo de risco.

Na próxima fase, a exploração guiada adota uma abordagem dinâmica e dirigida por inteligência. Este componente absorve endpoints descobertos, achados validados e documentação de análise de código para raciocinar sobre oportunidades de ataque específicas da aplicação. Ele funciona em dois estágios: primeiro gerando um plano de teste de penetração contextualizado identificando recursos não explorados e possíveis cadeias de vulnerabilidades, depois gerenciando programaticamente a execução dessas tarefas geradas dinamicamente. O explorador guiado executa com tarefas adaptativas que evoluem conforme as respostas da aplicação e padrões descobertos.

Enxame de Agentes Especializados

Ambas as abordagens de exploração distribuem trabalho para agentes especializados do enxame—cada um configurado para tipos específicos de risco e equipado com kits abrangentes de teste de penetração incluindo executores de código, fuzers web, busca em banco de dados de vulnerabilidades da NIST (NVD, do inglês National Vulnerability Database) para inteligência de Vulnerabilidades e Exposições Comuns (CVEs, do inglês Common Vulnerabilities and Exposures), e ferramentas específicas para cada tipo de vulnerabilidade. Esses agentes executam tarefas atribuídas com gerenciamento de tempo limite e relatórios estruturados.

Validação e Geração de Relatórios

Quando agentes especializados identificam riscos de segurança potenciais, geram relatórios estruturados contendo o tipo de vulnerabilidade, endpoints afetados, evidência de exploração e contexto técnico. Porém, os testes de penetração automatizados enfrentam um desafio crítico: agentes baseados em LLM podem produzir achados que parecem plausíveis mas não são reais. Para contornar isso, achados candidatos passam por validação através de validadores determinísticos e agentes especializados baseados em LLM que tentam exploração ativa. O sistema emprega técnicas de validação baseada em asserções onde asserções em linguagem natural escritas por especialistas em segurança codificam conhecimento profundo sobre comportamentos reais de ataques, exigindo prova explícita e estruturada que é significativamente mais difícil de contornar do que verificações determinísticas simples.

Os achados validados passam por análise CVSS para avaliação de severidade, e são sintetizados em relatórios finais com resultados de validação, pontuações de severidade e evidência de exploração—projetados para entregar vulnerabilidades confiáveis e acionáveis para remediação efetiva.

Desempenho e Avaliação

Para avaliar o sistema, a AWS realizou avaliação humana além de testes automáticos de desempenho. Analisaram trajetórias de mundo real e criaram uma taxonomia de padrões de erro. Identificando padrões de erro frequentes, conseguiram iterar na solução.

Os resultados foram reportados no benchmark público CVE Bench, uma coleção de aplicações web vulneráveis contendo 40 CVEs de severidade crítica do Banco Nacional de Vulnerabilidades usada para avaliar agentes de IA em exploits reais. Cada aplicação inclui referências de exploit automático, e agentes baseados em LLM tentam executar ataques que disparam as vulnerabilidades. O sucesso é medido através da métrica de taxa de sucesso de ataque (ASR, do inglês Attack Success Rate), definida como a taxa de exploração bem-sucedida de vulnerabilidades da aplicação.

O benchmark fornece um avaliador que o agente pode consultar para verificar sucesso de exploit e oferece instruções explícitas de captura de flag (CTF). A avaliação ocorreu em três configurações:
- Com instruções CTF e verificações de avaliador após cada chamada de ferramenta: atingiu 92,5% no CVE Bench v2.0 (nota que alguns desafios envolvem exploração cega onde o agente não pode verificar sucesso sem esse feedback)
- Sem instruções CTF ou feedback de avaliador: atingiu 80%—o que melhor reflete condições reais onde o agente deve se auto-validar através de resultados observáveis
- Usando um LLM cujo conhecimento anterior à data é anterior à liberação do CVE Bench v1.0: atingiu 65% de ASR
Um exemplo prático demonstra como o agente de IA referencia parametricamente CVE-2023-37999 de seus dados de treinamento, então emite um comando bash para verificar pré-requisitos de exploração:
```
# HT Mega 2.2.0 tem uma vulnerabilidade conhecida – CVE-2023-37999
# Tem escalação de privilégio não autenticada via endpoint de configurações REST API
# Vamos verificar se o registro está ativado
curl -s http://target:9090/wp-login.php?action=register -I | head -10
```
Desafios de Otimização e Não-Determinismo

Duas questões técnicas importantes surgiram durante o desenvolvimento:

Equilíbrio entre Exploração e Varredura: Um desafio central em testes de penetração é determinar o equilíbrio entre exploração profunda e exploração ampla. Uma abordagem em profundidade primeiro (depth-first) pode desperdiçar muito poder computacional em direções específicas, resultando em menor cobertura de vulnerabilidades dentro de um orçamento computacional fixo. Em contraste, uma busca em largura primeiro (breadth-first) é improvável de descobrir vulnerabilidades profundas que exigem testes de múltiplas abordagens. Portanto, é necessário um equilíbrio entre as duas estratégias para maximizar cobertura para um orçamento computacional dado. O design do sistema proposto busca incluir uma abordagem híbrida, embora uma solução dinâmica mais eficiente que generalize através de várias vulnerabilidades e diferentes aplicações web permaneça uma questão de pesquisa aberta.

Não-Determinismo: Outro desafio com testes de penetração é o não-determinismo. Por causa dos LLMs subjacentes, a saída de execuções de teste de penetração pode variar de uma execução para outra. Ter achados diferentes através de múltiplas execuções pode levar a confusão. Uma opção para mitigar isso é executar múltiplas rodadas e consolidar os achados entre elas.

Implicações para Segurança de Aplicações

Este sistema multi-agente demonstra uma mudança importante em como abordamos teste de segurança automatizado. Ao orquestrar componentes especializados com geração de tarefas adaptativas e validação baseada em asserções, o sistema entrega cobertura de segurança abrangente que evolui baseada em contexto específico da aplicação e padrões descobertos. A capacidade de realizar ataques encadeados complexos—combinando divulgação de informações com escalação de privilégio, ou IDOR com bypass de autenticação—representa um avanço significativo em relação aos scanners tradicionais que geralmente identificam apenas vulnerabilidades isoladas.

A AWS continua empenhada em expandir a fronteira de detecção de vulnerabilidades de segurança através de avaliação contínua do agente e mantendo-se competitivo com benchmarks mais novos e desafiadores. Para mais informações e começar a usar essas capacidades, desenvolvedores podem acessar a documentação de primeiros passos do serviço.

Fonte

Inside AWS Security Agent: A multi-agent architecture for automated penetration testing (https://aws.amazon.com/blogs/security/inside-aws-security-agent-a-multi-agent-architecture-for-automated-penetration-testing/)
February 27, 2026
Refinamento com aprendizado por reforço no Amazon Nova: ensinando IA através de feedback
Modelos base e a necessidade de personalização

Modelos de fundação entregam desempenho impressionante para tarefas genéricas, mas muitas organizações precisam de modelos que entendam suas especificidades de negócio. Quando você constrói aplicações que exigem expertise em domínios específicos, aplicação de estilos de comunicação particulares, otimização para tarefas especializadas como geração de código ou raciocínio financeiro, ou ainda conformidade com regulamentações do setor, a personalização do modelo se torna essencial para fechar a lacuna entre IA genérica e necessidades específicas.

O desafio está em como personalizar efetivamente. O refinamento supervisionado tradicional funciona, mas requer milhares de exemplos cuidadosamente rotulados mostrando não apenas a resposta final correta, mas também o caminho completo do raciocínio para chegar a ela. Para muitas aplicações reais, especialmente aquelas onde múltiplos caminhos de solução são válidos, criar essas demonstrações passo a passo pode ser dispendioso e demorado.

Uma nova abordagem: aprendizado por avaliação em vez de imitação

O refinamento com aprendizado por reforço (RFT) muda o paradigma: em vez de aprender por imitação, o modelo aprende por avaliação. Em vez de fornecer milhares de exemplos rotulados, você oferece prompts e define o que torna uma resposta final correta através de casos de teste, resultados verificáveis ou critérios de qualidade. O modelo então aprende a otimizar esses critérios através de feedback iterativo, descobrindo seus próprios caminhos para soluções corretas.

O RFT é particularmente eficaz para personalização de modelos em geração de código e raciocínio matemático, verificando outputs automaticamente e eliminando a necessidade de fornecer raciocínio detalhado passo a passo.

A AWS disponibilizou o RFT em seus serviços de IA para atender você em qualquer estágio de sua jornada: comece simples com a experiência totalmente gerenciada do Amazon Bedrock, ganhe mais controle com os SageMaker Training Jobs, dimensione para infraestrutura avançada com o SageMaker HyperPod, ou libere capacidades de ponta com o Nova Forge para conversas multi-turno e ambientes de aprendizado por reforço customizados.

Em dezembro de 2025, a Amazon lançou a família Nova 2 — os primeiros modelos da empresa com capacidades de raciocínio integradas. Diferentemente de modelos tradicionais que geram respostas diretas, modelos de raciocínio como o Nova 2 Lite engajam em decomposição de problemas passo a passo, realizando etapas de pensamento intermediário antes de produzir respostas finais. Quando combinado com RFT, essa capacidade de raciocínio se torna particularmente poderosa: o RFT pode otimizar não apenas qual resposta o modelo produz, mas como ele raciocina através de problemas, ensinando-o a descobrir caminhos de raciocínio mais eficientes enquanto reduz o uso de tokens.

Casos de uso práticos do RFT

O RFT se destaca em cenários onde você pode definir e verificar resultados corretos, mas criar demonstrações detalhadas de solução passo a passo em escala é impraticável:
- Geração de código: você deseja código não apenas correto, mas também eficiente, legível e que trate casos extremos graciosamente — qualidades que você pode verificar programaticamente através de execução de testes e métricas de desempenho.
- Atendimento ao cliente: você precisa avaliar se as respostas são úteis, mantêm a voz da marca e apresentam o tom certo para cada situação. Essas são avaliações que não podem ser reduzidas a regras simples, mas podem ser avaliadas por um juiz de IA treinado em seus padrões de comunicação.
- Outras aplicações: moderação de conteúdo, onde contexto e nuance importam; tarefas de raciocínio multi-etapas como análise financeira ou revisão de documentos legais; e uso de ferramentas, onde você precisa ensinar modelos quando e como chamar APIs ou consultar bancos de dados.
- Problemas que exploram diversas soluções: casos como jogos e estratégia, alocação de recursos e agendamento se beneficiam de abordagens onde o modelo usa diferentes estratégias e aprende com feedback.
- Cenários com dados rotulados limitados: aplicações específicas de domínio com poucos exemplos anotados por especialistas, novos domínios de problema sem padrões de solução estabelecidos, ou tarefas caras de rotular (diagnóstico médico, análise legal).
Como o RFT funciona

O RFT opera através de um processo automatizado de três estágios:

Imagem original — fonte: Aws

Estágio 1: Geração de respostas — O modelo ator (o modelo que você está personalizando) recebe prompts de seu conjunto de dados de treinamento e gera múltiplas respostas por prompt — tipicamente 4 a 8 variações. Essa diversidade oferece ao sistema um leque de respostas para avaliar e aprender.

Estágio 2: Cálculo de recompensas — Em vez de comparar respostas com exemplos rotulados, o sistema avalia qualidade usando funções de recompensa. Você tem duas opções: aprendizado por reforço via recompensas verificáveis (RLVR), usando verificadores baseados em regras implementados como funções AWS Lambda, perfeito para tarefas objetivas como execução de código ou verificação de problemas matemáticos; ou aprendizado por reforço de feedback de IA (RLAIF), usando juízes baseados em IA que avaliam respostas com base em critérios que você configura, ideal para tarefas subjetivas como avaliar utilidade, criatividade ou aderência à voz da marca.

Estágio 3: Treinamento do modelo ator — O sistema usa os pares prompt-resposta pontuados para treinar seu modelo através de um algoritmo de aprendizado por reforço, como Group Relative Policy Optimization (GRPO), otimizado para modelos de linguagem. O modelo aprende a maximizar a probabilidade de gerar respostas com alta recompensa enquanto minimiza respostas com baixa recompensa. Esse processo iterativo continua até que o modelo atinja seu desempenho desejado.

Benefícios principais do RFT
- Sem necessidade de datasets massivos e rotulados: RFT requer apenas prompts e uma maneira de avaliar qualidade. Se usar Bedrock RFT, você pode até aproveitar logs de invocação da API do Bedrock existentes como dados de RFT, eliminando a necessidade de datasets especialmente criados.
- Otimizado para resultados verificáveis: Diferentemente do refinamento supervisionado que requer demonstrações explícitas de como atingir respostas corretas, RFT é otimizado para tarefas onde você pode definir e verificar resultados corretos, mas múltiplos caminhos de raciocínio válidos podem existir.
- Redução no uso de tokens: Ao otimizar o processo de raciocínio do modelo, RFT pode reduzir o número de tokens necessários para realizar uma tarefa, diminuindo custo e latência em produção.
- Seguro e monitorado: Seus dados proprietários nunca deixam o ambiente seguro da AWS durante o processo de personalização, e você obtém monitoramento em tempo real de métricas de treinamento para acompanhar progresso e garantir qualidade.
Opções de implementação: do simples ao complexo

A AWS oferece múltiplos caminhos de implementação para refinamento com aprendizado por reforço com modelos Nova, variando de experiências totalmente gerenciadas até infraestrutura customizável. Essa abordagem em camadas permite corresponder sua implementação de RFT às suas necessidades específicas, expertise técnica e nível desejado de controle.

Imagem original — fonte: Aws

Amazon Bedrock

O Amazon Bedrock fornece um ponto de entrada para RFT com experiência totalmente gerenciada que requer expertise mínima em aprendizado de máquina. Através do console ou API do Amazon Bedrock, você pode carregar seus prompts de treinamento, configurar sua função de recompensa como uma função AWS Lambda, e iniciar seu trabalho de refinamento com aprendizado por reforço em poucos cliques. O Bedrock cuida de todo o provisionamento de infraestrutura, orquestração de treinamento e implantação de modelo automaticamente. Essa abordagem funciona bem para casos de uso diretos onde você precisa otimizar critérios específicos sem gerenciar infraestrutura.

Bedrock RFT suporta ambas as abordagens RLVR (recompensas baseadas em regras) e RLAIF (feedback baseado em IA), com ferramentas de monitoramento e avaliação integradas para acompanhar a melhoria de seu modelo. Para começar, veja o repositório Amazon Nova RFT no GitHub.

Amazon SageMaker Training Jobs

Para equipes que precisam de mais controle sobre o processo de treinamento, os Amazon SageMaker Training Jobs oferecem um meio termo flexível com computação gerenciada e capacidade de ajustar múltiplos hiperparâmetros. Você também pode salvar checkpoints intermediários e usá-los para criar fluxos de trabalho de treinamento iterativo, como encadear trabalhos de refinamento supervisionado (SFT) e RFT para refinar progressivamente seu modelo. Você tem flexibilidade para escolher entre abordagens de treinamento LoRA (adaptação de baixa classificação) e full-rank, com controle total sobre hiperparâmetros.

Essa camada é ideal para engenheiros de aprendizado de máquina e cientistas de dados que precisam de personalização além do Amazon Bedrock, mas não requerem infraestrutura dedicada. Para começar, consulte os notebooks SFT e RFT.

Amazon SageMaker HyperPod

O SageMaker HyperPod oferece infraestrutura de nível empresarial para cargas de trabalho RFT em larga escala com clusters baseados em Kubernetes persistentes otimizados para treinamento distribuído. Essa camada constrói sobre todos os recursos disponíveis em SageMaker Training Jobs em escala muito maior, com recursos de computação dedicados e configurações de rede especializadas. Para mais informações, veja avaliação baseada em RFT.

Nova Forge

O Nova Forge fornece capacidades avançadas de treinamento de feedback por reforço projetadas para equipes de pesquisa em IA e praticantes construindo aplicações agentic sofisticadas. Ao se libertar de restrições de interação de turno único e timeouts de Lambda, o Nova Forge habilita fluxos de trabalho complexos multi-turno com ambientes personalizados rodando em sua própria VPC. Essa arquitetura oferece controle completo sobre geração de trajetória, funções de recompensa e interação direta com capacidades de servidores de treinamento e inferência — essencial para aplicações de IA de ponta que os tiers RFT padrão não conseguem suportar.

Abordagem sistemática para RFT

O refinamento com aprendizado por reforço melhora progressivamente modelos pré-treinados através de iterações de aprendizado estruturadas baseadas em recompensa. Antes de iniciar RFT, avalie se seu modelo apresenta desempenho em nível minimamente aceitável. RFT requer que o modelo consiga produzir pelo menos uma solução correta entre várias tentativas durante o treinamento. Se todos os rollouts (gerações) falham consistentemente, o modelo não tem sinal positivo para aprender, tornando RFT ineficaz. Nesses casos, você deve primeiro usar refinamento supervisionado (SFT) para estabelecer capacidades básicas antes de tentar RFT.

Após validar a linha de base, identifique o dataset correto e a função de recompensa. Selecione ou crie um dataset de prompts representando os cenários que seu modelo encontrará em produção. Monitore continuamente as métricas de treinamento e rollouts de modelo ao longo do processo. O RFT é um processo iterativo — use insights de cada execução para refinar sua função de recompensa, expandir seu conjunto de prompts ou ajustar hiperparâmetros.

Caso prático: Otimização do benchmark FinQA com RFT

Imagem original — fonte: Aws

Neste caso prático, você caminha através de um exemplo usando FinQA, um benchmark de análise financeira, com 1000 amostras do dataset público FinQA. Os dados devem ser preparados no formato compatível com o esquema RFT, seguindo o formato conversacional OpenAI. Cada exemplo de treinamento é um objeto JSON contendo campos obrigatórios como mensagens e reference_answer, além de campos opcionais como id e custom metadata.

A função de recompensa é o componente central que avalia respostas do modelo e fornece sinais de feedback para treinamento. Ela deve ser implementada como uma função AWS Lambda que aceita respostas do modelo e retorna pontuações de recompensa. As melhores práticas incluem começar pequeno com 100-200 exemplos e poucos epochs, fazer baseline com SFT primeiro se as pontuações de recompensa forem consistentemente baixas, e desenhar funções de recompensa eficientes que executem em segundos.

Imagem original — fonte: Aws

Uma vez que você tem dados preparados, lance RFT usando SageMaker Training Jobs. Os dois inputs chave são o dataset de entrada e o ARN da função Lambda de recompensa. Durante o monitoramento dos trabalhos iniciados, você pode acompanhar o progresso em logs do Amazon CloudWatch para SageMaker Training Jobs observando as métricas específicas de RFT. Métricas importantes incluem distribuição de recompensas do crítico (indicando como a forma das recompensas se parece e se as recompensas estão em trajetória de aumento gradual) e métricas de comportamento exploratório do modelo (ajudando você a entender a natureza exploratória do modelo).

RFT versus refinamento supervisionado: quando usar cada um

O refinamento supervisionado (SFT) funciona melhor para tarefas bem definidas com outputs claros desejados — fornece conhecimento factual direto e é ideal quando você tem pares prompt-resposta de alta qualidade. Sua força está em fornecer estruturas de output consistentes e específicas, mas requer exemplos explicitamente rotulados e pode se debater em tarefas envolvendo soluções ambíguas ou múltiplas válidas.

O RFT é mais adequado para cenários onde uma função de recompensa pode ser definida, mesmo que exista apenas uma solução válida. Seus pontos fortes incluem otimização de tarefas complexas de raciocínio, geração eficiente de dados de treinamento reduzindo a necessidade por muitos exemplos rotulados manualmente, e permitir balanceamento de objetivos concorrentes. Sua limitação principal é que requer que o modelo produza pelo menos uma solução correta entre várias tentativas — se o modelo falha consistentemente em gerar soluções corretas, RFT sozinho não será eficaz.

Conclusão

Com RFT você pode realizar personalização de modelo através de aprendizado baseado em avaliação, requerendo apenas prompts e critérios de qualidade em vez de datasets massivos rotulados. Para implementação totalmente gerenciada, comece com Amazon Bedrock. Se precisar de controle mais flexível, mude para SageMaker Training Jobs. Para cargas de trabalho em escala empresarial, o SageMaker HyperPod fornece a infraestrutura necessária. Alternativamente, explore o Nova Forge para aplicações agentic multi-turno com ambientes de aprendizado por reforço customizados.

Fonte

Reinforcement fine-tuning for Amazon Nova: Teaching AI through feedback (https://aws.amazon.com/blogs/machine-learning/reinforcement-fine-tuning-for-amazon-nova-teaching-ai-through-feedback/)
February 27, 2026