Blog

Amazon Bedrock agora permite execução de ferramentas no servidor com AgentCore Gateway

O que muda no Amazon Bedrock

A AWS anunciou um aprimoramento significativo no Amazon Bedrock, seu serviço de modelos de IA em larga escala. Agora, o serviço suporta execução de ferramentas no servidor por meio da integração do Amazon Bedrock AgentCore Gateway com a API Responses. Essa novidade permite que os clientes conectem suas ferramentas do AgentCore Gateway diretamente aos modelos do Amazon Bedrock, possibilitando execução de ferramentas no servidor sem a necessidade de orquestração no lado do cliente.

Como funciona a integração

O funcionamento é direto e eficiente. Ao fazer requisições pela API Responses, os clientes podem especificar um ARN (Amazon Resource Name) do AgentCore Gateway como um conector de ferramentas. A partir daí, o Amazon Bedrock realiza automaticamente a descoberta das ferramentas disponíveis no gateway, as apresenta ao modelo durante a inferência e executa as chamadas de ferramentas no servidor quando o modelo as seleciona. Tudo isso acontece dentro de uma única chamada da API.

Esse fluxo integrado oferece uma vantagem clara: elimina a necessidade de os clientes construírem e manterem loops de orquestração no lado do cliente. O resultado é uma redução significativa na complexidade das aplicações e na latência dos fluxos de trabalho com agentes de IA.

Segurança e controle

A implementação mantém o controle total nas mãos dos clientes. O acesso às ferramentas é governado pelas configurações existentes do AgentCore Gateway e pelas permissões do AWS IAM (Gerenciamento de Identidade e Acesso), garantindo que apenas as ferramentas autorizadas possam ser acessadas e executadas.

Compatibilidade e recursos

A execução de ferramentas no servidor com AgentCore Gateway está disponível para todos os modelos suportados pela API Responses do Amazon Bedrock. Os clientes definem as ferramentas usando o tipo de conector do servidor MCP com o ARN do gateway, e o Amazon Bedrock gerencia automaticamente a descoberta de ferramentas, a seleção orientada pelo modelo, a execução e a injeção de resultados.

Um destaque importante: o serviço suporta múltiplas chamadas de ferramentas em um único turno de conversa, e os resultados das ferramentas são transmitidos de volta ao cliente em tempo real.

Disponibilidade e próximos passos

Essa capacidade está disponível em caráter geral (GA) em todas as regiões da AWS onde tanto a API Responses do Amazon Bedrock quanto o Amazon Bedrock AgentCore Gateway estão disponíveis. Para começar, recomenda-se consultar a documentação do Amazon Bedrock ou acessar o console do Amazon Bedrock. Informações adicionais sobre o Amazon Bedrock AgentCore Gateway podem ser encontradas na documentação do AgentCore.

Fonte

Amazon Bedrock now supports server-side tool execution with AgentCore Gateway (https://aws.amazon.com/about-aws/whats-new/2026/02/amazon-bedrock-server-side-tool-execution-agentcore-gateway/)

February 25, 2026
Construindo um Sistema de Busca Inteligente de Fotos com Visão Computacional, Grafos e IA Generativa
O Desafio de Organizar Grandes Coleções de Fotos

Gerenciar acervos fotográficos expressivos apresenta desafios significativos para organizações e indivíduos. As abordagens tradicionais baseiam-se em etiquetagem manual, metadados simples e organização por pastas, estratégias que se tornam impraticáveis quando se lida com milhares de imagens contendo múltiplas pessoas e relacionamentos complexos. A rotulação manual consome tempo considerável, as buscas por metadata simples oferecem resultado limitado, e a estrutura de pastas frequentemente não reflete a forma como as pessoas realmente buscam suas memórias.

Sistemas de busca fotográfica inteligente resolvem esse problema combinando visão computacional, bancos de dados em grafo e processamento de linguagem natural. Essas soluções capturam não apenas quem e o que aparece nas fotos, mas os relacionamentos e contextos complexos que as tornam significativas, viabilizando consultas em linguagem natural e descoberta semântica genuína.

Uma Arquitetura Serverless Integrada

A AWS demonstrou como construir um sistema completo de busca fotográfica utilizando o AWS Cloud Development Kit (AWS CDK), integrando três serviços principais: Amazon Rekognition para detecção de rostos e objetos, Amazon Neptune para mapeamento de relacionamentos, e Amazon Bedrock para legendagem orientada por IA.

A solução demonstra que integrando as capacidades de banco de dados em grafo do Amazon Neptune com os serviços de IA da AWS, é possível criar uma busca fotográfica em linguagem natural que compreende contexto e relacionamentos. Em vez de simples metadados, a arquitetura oferece descoberta fotográfica verdadeiramente inteligente.

Componentes Principais da Solução

A arquitetura serverless articula diversos serviços AWS para criar um sistema contextualmente consciente:
- Amazon API Gateway — para endpoints REST e integração com interface web
- Amazon Bedrock com Claude 3.5 Sonnet da Anthropic — para legendagem contextual de imagens orientada por IA
- Amazon DynamoDB — para armazenamento rápido e recuperação de metadados
- AWS Lambda — para orquestração serverless de computação entre componentes
- Amazon Neptune — para armazenar relacionamentos complexos como banco de dados em grafo
- Amazon Rekognition — para detecção facial, reconhecimento e etiquetagem de objetos
- Amazon Simple Storage Service (Amazon S3) — para armazenamento escalável de fotos e disparo de fluxos de processamento
Fluxo de Processamento

O sistema segue um fluxo de trabalho racionalizado: imagens são enviadas para buckets S3 com acionadores Lambda automáticos. Fotos de referência na pasta faces/ são processadas para construir modelos de reconhecimento. Novas fotos acionam Amazon Rekognition para detecção facial e etiquetagem de objetos. O Neptune armazena conexões entre pessoas, objetos e contextos. O Amazon Bedrock gera descrições contextuais usando rostos detectados e relacionamentos. O DynamoDB armazena metadados pesquisáveis com recuperação rápida. Consultas em linguagem natural atravessam o grafo Neptune para resultados inteligentes.

Casos de Uso e Escalabilidade

A arquitetura serverless escala eficientemente para múltiplos casos de uso: em contextos corporativos para reconhecimento de funcionários e documentação de eventos; no setor de saúde para gestão de fotos compatível com HIPAA com rastreamento de relacionamentos; na educação para organização de fotos de estudantes e corpo docente entre departamentos; em eventos para fotografia profissional com etiquetagem automática e entrega ao cliente.

A solução beneficia-se diretamente da natureza serverless: você paga apenas pelo que usa, tornando-a economicamente viável tanto para pequenos acervos familiares quanto para arquivos corporativos massivos. O processamento de 1.000 imagens tipicamente custa aproximadamente $15–25 (incluindo detecção facial do Amazon Rekognition, geração de legendas com Amazon Bedrock e execução de funções Lambda), com custos de cluster Neptune na faixa de $100–150 mensais independentemente do volume. Custos de armazenamento permanecem mínimos, inferior a $1 por 1.000 imagens no Amazon S3.

Capacidades Principais

Reconhecimento Facial e Etiquetagem Automática

Com o Amazon Rekognition, é possível identificar automaticamente indivíduos a partir de fotos de referência, sem necessidade de etiquetagem manual. Enviando algumas imagens claras por pessoa, o sistema as reconhece em toda a coleção, independentemente de iluminação ou ângulos. Essa automação reduz o tempo de etiquetagem de semanas para horas, suportando diretórios corporativos, arquivos de conformidade e fluxos de gestão de eventos.

Busca Consciente de Relacionamentos

Utilizando Neptune, a solução compreende quem aparece nas fotos e como estão conectados. Consultas em linguagem natural como “gerente da Sarah” ou “Mãe com seus filhos” permitem que o sistema atravesse relacionamentos de múltiplos saltos para retornar imagens relevantes. Essa busca semântica substitui a organização manual por pastas com descoberta intuitiva e contextualmente consciente.

Compreensão Automática de Objetos e Contexto

O Amazon Rekognition detecta objetos, cenas e atividades, e o Neptune os conecta a pessoas e relacionamentos. Isso viabiliza consultas complexas como “executivos com veículos corporativos” ou “professores em salas de aula”. A hierarquia de etiquetas é gerada dinamicamente e se adapta a domínios diferentes — como saúde ou educação — sem configuração manual.

Legendagem Contextual com Amazon Bedrock

Usando Amazon Bedrock, o sistema cria legendas significativas, conscientes de relacionamentos, como “Sarah e seu gerente discutindo resultados trimestrais” em vez de legendas genéricas. Legendas podem ser ajustadas quanto ao tom (objetivo para conformidade, narrativo para marketing, conciso para resumos executivos), aprimorando tanto a capacidade de busca quanto a comunicação.

Experiência Web Intuitiva

A interface web permite que usuários busquem fotos usando linguagem natural, visualizem legendas geradas por IA e ajustem o tom dinamicamente. Consultas como “mãe com crianças” ou “atividades ao ar livre” retornam resultados relevantes e legendados instantaneamente. Essa experiência unificada suporta tanto fluxos de trabalho corporativos quanto coleções pessoais.

Gerenciamento de Relacionamentos e Hierarquias

Escalando Relacionamentos em Grafos com Hierarquias de Etiquetas

O Neptune escala para modelar milhares de relacionamentos e hierarquias de etiquetas em organizações ou conjuntos de dados. Relacionamentos são gerados automaticamente durante o processamento de imagens, viabilizando descoberta semântica rápida enquanto mantém performance e flexibilidade conforme os dados crescem.

Abordagem Orientada por Configuração

O grafo de relacionamentos utiliza uma abordagem flexível orientada por configuração através da função initialize_relationship_data(). Esse modelo mitiga a necessidade de codificação fixa e suporta casos de uso ilimitados — você simplesmente define suas pessoas e relacionamentos em um objeto de configuração.

Um exemplo de estrutura genérica de configuração:
```
config = {
    "people": [
        {"name": "alice", "gender": "woman", "role": "mother"},
        {"name": "jane", "gender": "girl", "role": "daughter"}
    ],
    "relationships": [
        {"from": "alice", "to": "jane", "type": "parent_of", "subtype": "mother_of"},
        {"from": "jane", "to": "david", "type": "sibling_of", "bidirectional": True}
    ]
}

# Generic relationship creation
for rel in relationships_data:
    g.V().has('name', rel["from"]).addE(rel["type"]).to(
        __.V().has('name', rel["to"])
    ).property('type', rel["subtype"]).next()

# Business example - just change the configuration
business_config = {
    "people": [{"name": "sarah", "role": "manager"}],
    "relationships": [{"from": "sarah", "to": "john", "type": "manages", "subtype": "manager_of"}]
}
```
Criação Automática de Hierarquias de Etiquetas

O banco de dados de relacionamentos de etiquetas é criado automaticamente durante o processamento de imagens através da função store_labels_in_neptune():
```
# Rekognition provides labels with categories
response = rekognition.detect_labels(
    Image={'Bytes': image_bytes},
    MaxLabels=20,
    MinConfidence=70
)

# Extract labels and categories
for label in response.get('Labels', []):
    label_data = {
        'name': label['Name'],  # e.g., "Car"
        'categories': [cat['Name'] for cat in label.get('Categories', [])]  # e.g., ["Vehicle", "Transportation"]
    }

# Automatic hierarchy creation in Neptune
for category in categories:
    # Create belongs_to relationship (Car -> Vehicle -> Transportation)
    g.V().has('name', label_name).addE('belongs_to').to(
        __.V().has('name', category_name)
    ).property('type', 'hierarchy').next()
    
    # Create appears_with relationship (Person -> Car)
    g.V().has('name', person_name).addE('appears_with').to(
        __.V().has('name', label_name)
    ).property('confidence', confidence).next()
```
Com essas funções, é possível gerenciar coleções fotográficas grandes com consultas de relacionamento complexas, descobrir fotos por contexto semântico e localizar coleções temáticas através de padrões de co-ocorrência de etiquetas.

Implantação e Pré-requisitos

Requisitos Técnicos

Antes de implementar essa solução, certifique-se de ter:
- Uma conta AWS com permissões apropriadas para Amazon S3, Lambda, Amazon Rekognition, Neptune, Amazon Bedrock e DynamoDB
- AWS Command Line Interface (AWS CLI) v2.15.0 ou posterior configurada com acesso programático
- AWS CDK v2.92.0 ou posterior instalado (npm install -g aws-cdk)
- Python 3.11 ou posterior com gerenciador pip
- Node.js 18.x ou posterior para operações AWS CDK
- Conhecimento básico de arquiteturas serverless e bancos de dados em grafo
- Acesso ao Claude 3.5 Sonnet da Anthropic no Amazon Bedrock em sua região AWS
Estrutura do Projeto

O código-fonte completo está disponível em repositório GitHub, com instruções detalhadas de setup e implantação no README. O projeto está organizado em diretórios-chave que separam responsabilidades e viabilizam desenvolvimento modular:
```
smart-photo-caption-and-search/
├── lambda/
│   ├── face_indexer.py # Indexes reference faces in Rekognition
│   ├── faces_handler.py # Lists indexed faces via API
│   ├── image_processor.py # Main processing pipeline
│   ├── search_handler.py # Handles search queries
│   ├── style_caption.py # Generates styled captions
│   ├── relationships_handler_neptune.py # Manages Neptune relationships
│   ├── label_relationships.py # Queries label hierarchies
│   └── neptune_search.py # Neptune relationship parsing
├── lambda_layer/ # Pillow image processing layer
├── neptune_layer/ # Gremlin Python Neptune layer
├── ui/
│   └── demo.html # Web interface with Cognito authentication
├── app.py # CDK application entry point
├── image_name_cap_stack_neptune.py # Neptune-enabled CDK stack
└── requirements_neptune.txt # Python dependencies
```
Funções Lambda Principais

A solução utiliza as seguintes funções Lambda-chave:
- image_processor.py — Processamento central com reconhecimento facial, detecção de etiquetas e geração de legendas enriquecidas por relacionamentos
- search_handler.py — Processamento de consultas em linguagem natural com travessia de relacionamentos de múltiplos saltos
- relationships_handler_neptune.py — Gerenciamento de relacionamentos orientado por configuração e conexões em grafo
- label_relationships.py — Consultas hierárquicas de etiquetas, associações objeto-pessoa e descoberta semântica
Passos de Implantação

Para implantar a solução, execute os seguintes passos:
1. Instale as dependências com: pip install -r requirements_neptune.txt
2. Para configuração de primeira vez, execute o bootstrap do AWS CDK: cdk bootstrap
3. Provisione recursos AWS com: cdk deploy
4. Configure credenciais do pool de usuários Amazon Cognito na interface web
5. Carregue fotos de referência para estabelecer a linha de base de reconhecimento
6. Crie relacionamentos familiares de amostra utilizando a API ou interface web
O sistema gerencia automaticamente reconhecimento facial, detecção de etiquetas, resolução de relacionamentos e geração de legendas orientada por IA através do pipeline serverless, viabilizando consultas em linguagem natural como “mãe da pessoa com carro” alimentadas por travessias em grafo Neptune.

Segurança e Privacidade

A solução implementa medidas abrangentes de segurança para proteger dados sensíveis de imagem e reconhecimento facial. O sistema criptografa dados em repouso utilizando criptografia AES-256 com chaves gerenciadas pelo AWS Key Management Service (AWS KMS) e assegura dados em trânsito com TLS 1.2 ou posterior. Funções Neptune e Lambda operam dentro de sub-redes de nuvem privada virtual (VPC), isoladas do acesso direto à internet, e o API Gateway fornece o único endpoint público com políticas CORS e limite de taxa.

O controle de acesso segue princípios de menor privilégio com políticas do AWS Identity and Access Management (IAM) que concedem apenas permissões mínimas necessárias: funções Lambda podem acessar apenas buckets S3 e tabelas DynamoDB específicas, e o acesso Neptune é restrito a operações autorizadas de banco de dados. Dados de imagem e reconhecimento facial permanecem dentro de sua conta AWS e nunca são compartilhados fora dos serviços AWS.

Você pode configurar políticas de ciclo de vida do Amazon S3 para gerenciamento automático de retenção de dados, e o AWS CloudTrail fornece logs de auditoria completos de acesso a dados e chamadas de API para monitoramento de conformidade, suportando requisitos GDPR e HIPAA com monitoramento adicional do Amazon GuardDuty para detecção de ameaças.

Limpeza de Recursos

Para evitar incorrer em cobranças futuras, execute os seguintes passos para deletar recursos que você criou:
- Delete imagens do bucket S3: aws s3 rm s3://YOUR_BUCKET_NAME –recursive
- Delete o cluster Neptune (esse comando também deleta automaticamente as funções Lambda): cdk destroy
- Remova a coleção de rostos do Amazon Rekognition: aws rekognition delete-collection --collection-id face-collection
Perspectiva para Profissionais de Nuvem Brasileiros

Essa arquitetura representa uma abordagem moderna para um problema clássico de gestão de dados visuais. Para times brasileiras de engenharia, o projeto oferece várias lições técnicas: a integração entre serviços especializados (visão, grafos, IA) demonstra como orquestrar capacidades distintas em uma solução coesa; a arquitetura serverless elimina gerenciamento de infraestrutura, permitindo que equipes se concentrem em lógica de negócio; a abordagem orientada por configuração do Neptune facilita adaptação a diferentes domínios sem alterações de código.

A relevância para o contexto brasileiro inclui casos de uso em áreas como documentação de eventos, gestão de acervos fotográficos institucionais, compliance corporativo com rastreabilidade, e até aplicações de segurança com reconhecimento facial contextualizado. O modelo de precificação serverless torna a solução economicamente acessível para startups e empresas de médio porte que historicamente enfrentavam barreiras de investimento em infraestrutura de ML e grafos.

Referência de Recursos

Para aprofundamento técnico, consulte:
Conclusão

A demonstração da AWS ilustra como Amazon Rekognition, Amazon Neptune e Amazon Bedrock trabalham em conjunto para viabilizar busca fotográfica inteligente que compreende conteúdo visual e contexto. Construída sobre uma arquitetura totalmente serverless, a solução combina visão computacional, modelagem em grafo e compreensão em linguagem natural para entregar experiências de descoberta escaláveis e humanizadas.

Ao transformar coleções fotográficas em um grafo de conhecimento de pessoas, objetos e momentos, a arquitetura redefine como usuários interagem com dados visuais — tornando a busca mais semântica, relacional e significativa. Essa abordagem reflete a confiabilidade e robustez de tecnologias de IA e grafos da AWS na viabilização de compreensão fotográfica segura e contextualmente consciente.

Fonte

Build an intelligent photo search using Amazon Rekognition, Amazon Neptune, and Amazon Bedrock (https://aws.amazon.com/blogs/machine-learning/build-an-intelligent-photo-search-using-amazon-rekognition-amazon-neptune-and-amazon-bedrock/)
February 25, 2026
AWS IAM Policy Autopilot agora está disponível como um Kiro Power
Nova integração simplifica a criação de políticas IAM

A AWS anunciou a disponibilidade do AWS IAM Policy Autopilot como um Kiro Power. Esta ferramenta de análise estática de código aberto foi lançada durante o re:Invent 2025 e agora oferece aos desenvolvedores uma forma mais eficiente de integrar expertise em políticas de segurança ao desenvolvimento de aplicações com IA agentic.

O que é o AWS IAM Policy Autopilot

O AWS IAM Policy Autopilot é uma solução que auxilia desenvolvedores na criação rápida de políticas baseline de Controle de Acesso por Identidade e Acesso (IAM — Identity and Access Management) da AWS. Essas políticas podem ser refinadas conforme as aplicações evoluem, eliminando a necessidade de criação manual de políticas IAM — um processo que tradicionalmente consome tempo e requer conhecimento profundo de segurança na nuvem.

Benefícios da integração como Kiro Power

A transformação dessa ferramenta em um Kiro Power traz melhorias significativas ao fluxo de trabalho dos desenvolvedores:

Instalação simplificada

O grande diferencial é a instalação com um único clique, disponível diretamente pela interface do Kiro IDE e pela interface web. Isso elimina completamente a necessidade de configuração manual do MCP (Model Context Protocol) server, processo que antes era necessário para integrar a ferramenta.

Integração perfeita com ambientes de desenvolvimento

O fluxo de trabalho streamlined permite que os desenvolvedores gerem políticas IAM sem abandonar seu ambiente de codificação, integrando-se perfeitamente em ambientes de desenvolvimento assistido por IA. Isso significa velocidade na criação de políticas e produtividade aumentada.

Casos de uso principais

A AWS destaca três cenários onde o AWS IAM Policy Autopilot como Kiro Power oferece maior valor:
- Prototipagem rápida: Para projetos que exigem políticas IAM da AWS em fases iniciais de desenvolvimento
- Baseline para novos projetos: Criação de políticas iniciais sólidas para novas aplicações da AWS
- Produtividade em IDE: Geração de políticas diretamente no ambiente de codificação, sem interrupções no fluxo de desenvolvimento
Próximos passos

Desenvolvedores interessados em explorar essa ferramenta podem acessar o repositório do AWS IAM Policy Autopilot no GitHub para documentação técnica completa e orientações de implementação. Para informações adicionais sobre Kiro Powers e outras integrações disponíveis, consulte a página de Kiro Powers.

Fonte

AWS IAM Policy Autopilot is now available as a Kiro Power (https://aws.amazon.com/about-aws/whats-new/2026/02/aws-iam-policy-autopilot-kiro-power/)
February 24, 2026
Amazon Q Developer ganha artefatos com IA generativa para visualizar recursos e custos

Novidade no Amazon Q Developer: visualização inteligente de recursos e custos

A AWS anunciou em fevereiro de 2026 a disponibilidade geral dos artefatos do Amazon Q Developer no Console de Gerenciamento da AWS. Essa funcionalidade representa um passo importante na forma como os clientes interagem com seus ambientes em nuvem, oferecendo uma experiência baseada em inteligência artificial generativa para visualizar dados de forma organizada e intuitiva.

Os artefatos do Amazon Q permitem que os usuários visualizem dados de recursos em formato tabular e informações de custos em gráficos, tudo através de uma interface conversacional. O lançamento também trouxe melhorias na acessibilidade do serviço, com o ícone do Amazon Q agora posicionado na barra de navegação e o painel de chat movido para o lado esquerdo do console, facilitando o acesso a partir de qualquer ponto do Console de Gerenciamento da AWS.

Como usar os artefatos do Amazon Q

Consultando recursos com exemplos práticos

Os clientes podem acessar os artefatos selecionando o ícone do Amazon Q e fazendo perguntas sobre seus recursos da AWS. Por exemplo, ao questionar “List S3 buckets with tag value production”, o Amazon Q exibe os buckets do S3 que possuem a tag de produção em formato tabular. A partir daí, é possível clicar nos nomes dos buckets para visualizar detalhes completos diretamente no console do S3.

Analisando custos com visualizações gráficas

Além de recursos, os usuários podem visualizar informações de custos e faturamento através de gráficos. Quando o usuário digita uma consulta como “Show me RDS costs by instance type over the last 6 months”, o Amazon Q renderiza a resposta utilizando gráficos adequados — como gráficos de barras, linhas, pizzas ou áreas — permitindo uma análise rápida e visual dos gastos com banco de dados.

Recursos de acessibilidade e produtividade

O Amazon Q Developer oferece uma biblioteca de prompts de exemplo no painel de chat, permitindo que novos usuários comecem rapidamente sem necessidade de memorizar comandos específicos. Os artefatos são exibidos em um painel dedicado à direita do painel de chat do Amazon Q, mantendo a conversa visível e facilitando o acompanhamento das consultas.

Para usuários que desejam uma experiência focada, há a opção de expandir o Amazon Q para tela cheia, oferecendo um modo dedicado sem distrações.

Disponibilidade e próximos passos

Os artefatos do Amazon Q Developer estão disponíveis em todas as regiões da AWS onde o Amazon Q Developer está presente. Para começar a usar a funcionalidade, é recomendável consultar a documentação do Amazon Q Developer, que contém guias detalhados e exemplos adicionais de uso.

Fonte

Amazon announces generative AI-based artifacts in Amazon Q Developer for visualizing resource and cost data (https://aws.amazon.com/about-aws/whats-new/2026/02/generative-ai-based-Amazon-Q-artifacts/)

February 24, 2026
IA Agente com Framework Multi-Modelo: Integrando Hugging Face smolagents na AWS
Compreendendo a Evolução da IA Agente

A inteligência artificial evoluiu significativamente. Enquanto os sistemas de conversação tradicionais respondem a perguntas com base em padrões aprendidos, os agentes de IA representam um avanço qualitativo: são capazes de raciocinar complexamente, utilizar ferramentas externas e executar código de forma autônoma para resolver problemas.

Para que essas soluções funcionem eficientemente em ambientes corporativos, é necessário pensar estrategicamente sobre como implantá-las. Diferentes cenários exigem diferentes abordagens: alguns demandam endpoints gerenciados com capacidade de escalabilidade automática, outros precisam de acesso a modelos de fundação poderosos para raciocínio avançado, e há casos em que é essencial contar com opções de implantação em contêiner para integrar customizações específicas.

A biblioteca Python smolagents da Hugging Face foi desenvolvida justamente para simplificar essa construção. Ela permite que você crie e execute agentes inteligentes com apenas algumas linhas de código. Ao integrar essa biblioteca com os serviços gerenciados da AWS, torna-se possível implementar soluções sofisticadas que combinam o melhor dos dois mundos.

A Solução de Saúde como Caso de Uso

Para ilustrar como essa integração funciona na prática, a arquitetura demonstrada utiliza um agente de IA no setor de saúde. Este agente é capaz de processar consultas médicas complexas, integrar conhecimento clínico especializado e oferecer suporte para decisões clínicas, tudo operando dentro dos padrões rigorosos de segurança e conformidade que o setor demanda.

Embora o exemplo seja focado em saúde, essa abordagem se aplica a qualquer indústria onde inteligência especializada em domínios específicos e confiabilidade são críticas: serviços financeiros, manufatura, energia e muitos outros setores.

Arquitetura e Componentes Principais

A solução integra diversos serviços da AWS de forma coordenada:
- Amazon SageMaker AI hospeda o modelo BioM-ELECTRA-Large-SQuAD2 para processar consultas médicas especializadas com escalabilidade automática
- Amazon Bedrock fornece acesso ao Claude 3.5 Sonnet V2 by Anthropic para tarefas de raciocínio complexo
- Amazon OpenSearch Service implementa busca por similaridade vetorial e recuperação de conhecimento contextualizado
- Amazon ECS (Elastic Container Service) com AWS Fargate oferece orquestração de contêineres sem servidor
- AWS IAM (Identity and Access Management) gerencia segurança e controle de acesso
Um servidor de modelo containerizado também faz parte da solução, permitindo implantação self-hosted do BioM-ELECTRA para integração de ferramentas especializadas.

Design Agnóstico: Flexibilidade de Múltiplos Modelos

Uma das forças dessa arquitetura é seu design agnóstico em relação a modelos, modalidades e ferramentas. A biblioteca smolagents foi estruturada para orquestrar transparentemente entre diferentes backends sem exigir mudanças no código da aplicação.

Os três backends da solução implementam compatibilidade com a Hugging Face Messages API, garantindo que os formatos de requisição e resposta sejam consistentes. Isso significa que você pode escolher qual backend usar baseado nas necessidades operacionais específicas:
- SageMaker AI: Ideal para modelos de domínio especializados em ambientes de produção com auto-scaling gerenciado
- Amazon Bedrock: Melhor para acesso serverless a modelos de fundação quando você precisa de raciocínio sofisticado
- Servidor containerizado: Escolha quando você necessita integração com ferramentas customizadas e controle total da implantação
Inteligência Gerada por Código vs. Abordagens Tradicionais

Um aspecto técnico importante do smolagents é sua abordagem de CodeAgent. Em vez de gerar sequências JSON complexas para orquestração de passos múltiplos, o CodeAgent do smolagents gera blocos de código Python que podem ser executados diretamente.

Compare essas duas abordagens:

Abordagem tradicional (JSON-based):
```
{
  "action": "search",
  "parameters": {"query": "drug interactions"},
  "next_action": {
    "action": "filter",
    "parameters": {"criteria": "severity > moderate"}
  }
}
```
Abordagem smolagents (CodeAgent):
```
# Search and filter in single code block
results = search_tool("drug interactions")
filtered_results = [r for r in results if r.severity > "moderate"]
final_answer(f"Found {len(filtered_results)} severe interactions: {filtered_results}")
```
Essa geração de código reduz a quantidade de chamadas ao modelo de linguagem, simplifica o desenvolvimento do agente e oferece controle total sobre a lógica de execução.

Configuração Prática: Primeiros Passos

Para implementar essa solução, você precisa de alguns pré-requisitos:
- Uma conta AWS com permissões apropriadas para criar roles de IAM, clusters ECS e domínios OpenSearch Service
- AWS CLI (Command Line Interface) versão 2.0 ou superior configurada
- Python 3.10+ para executar scripts de implantação
- Docker instalado e em funcionamento (necessário para ambientes de produção com sandbox seguro)
- Acesso às regiões AWS com SageMaker AI, Bedrock e OpenSearch Service
A implementação utiliza Python 3.10+, framework smolagents, transformers 4.28.1+, PyTorch 2.0.0+ e boto3.

Definindo Variáveis de Ambiente

Antes de iniciar a implantação, é necessário configurar variáveis de ambiente para sua região AWS e nomes de recursos:
```
export AWS_REGION=us-west-2
export SAGEMAKER_ENDPOINT_NAME=healthcare-qa-endpoint-1
export OPENSEARCH_DOMAIN=healthcare-vector-store
export OPENSEARCH_INDEX=medical-knowledge
export BEDROCK_MODEL_ID=anthropic.claude-3-5-sonnet-20241022-v2:0
export SAGEMAKER_MODEL_ID=sultan/BioM-ELECTRA-Large-SQuAD2
export CONTAINERIZED_MODEL_ID=sultan/BioM-ELECTRA-Large-SQuAD2
```
Você pode verificar se as variáveis foram configuradas corretamente executando:
```
echo $AWS_REGION
echo $SAGEMAKER_ENDPOINT_NAME
```
Implantação da Infraestrutura AWS

A implantação pode ser feita de forma automatizada ou passo a passo, conforme preferência. A abordagem automatizada cria todos os componentes de infraestrutura básicos, incluindo o cluster ECS, roles de IAM e o domínio OpenSearch Service, em aproximadamente 15 a 20 minutos.

O repositório GitHub completo da implementação fornece toda a base de código necessária para executar a solução.

Implantando o Endpoint SageMaker AI

O modelo BioM-ELECTRA-Large-SQuAD2 é implantado no SageMaker AI para processar consultas médicas especializadas. A implantação leva entre 5 e 10 minutos. O endpoint é configurado com MAX_LENGTH=512 e TEMPERATURE=0.1 para otimizar respostas em tarefas de resposta a perguntas.

Configurando os Múltiplos Backends

Após ter o SageMaker AI configurado, o próximo passo é ativar o acesso ao Amazon Bedrock para integração com modelos de fundação. O Claude 3.5 Sonnet V2 fica automaticamente disponível em sua conta AWS e pode ser verificado no console do Bedrock sob o catálogo de modelos.

Posteriormente, a base de conhecimento médica é inicializada com seis medicamentos principais e suas embeddings vetoriais armazenadas no OpenSearch Service. Cada medicamento inclui informações sobre efeitos colaterais, requisitos de monitoramento e classificação farmacológica. O sistema suporta busca por similaridade com filtragem por tipo de conteúdo.

Servidor de Modelo Containerizado

Para cenários que exigem implantação self-hosted, um servidor de modelo containerizado é deployado na infraestrutura ECS já criada. Esse servidor usa Docker sandbox para execução segura de código e inclui mecanismos de fallback integrados com a base de dados de conhecimento médico.

Implementando o Agente de Saúde

O agente principal é construído usando a classe SampleTripleHealthcareAgent, que demonstra a integração completa do smolagents com os três backends diferentes. O agente inicializa tanto a instância do vector store quanto os três modelos de backend (SageMaker, Bedrock e containerizado), cada um envolvido com o SampleHealthcareCodeAgent para integração com smolagents.

Os agentes são configurados com max_steps=3 e incluem integração com ferramentas de busca como DuckDuckGo para expandir suas capacidades de pesquisa quando necessário.

Testando a Solução

A solução oferece múltiplas formas de interação com o agente de saúde. Uma interface web baseada em Streamlit fornece experiência interativa. Um Jupyter Notebook permite experimentação interativa. E um script Python puro oferece execução via linha de comando.

O sistema permite que você teste queries médicas específicas em cada um dos três backends. Por exemplo, uma pergunta sobre efeitos colaterais do metformina pode ser roteada para o SageMaker (conhecimento médico especializado), enquanto uma consulta que demande análise complexa de risco cardiovascular entre múltiplos medicamentos seria melhor servida pelo Claude 3.5 Sonnet V2 no Bedrock (raciocínio avançado).

As respostas incluem contexto vetorial do OpenSearch quando disponível, mostrando resultados de matching com scores de similaridade.

Considerações de Produção e Observabilidade

Para implantações em produção, implementar observabilidade é essencial para monitorar performance do agente, rastrear execução completa e verificar confiabilidade. O Amazon Bedrock AgentCore fornece observabilidade com instrumentação automática. Ele captura métricas de sessão, dados de performance, rastreamento de erros e traces completos de execução, incluindo invocações de ferramentas. Você pode consultar mais sobre construir agentes de IA confiáveis com observabilidade do Amazon Bedrock AgentCore.

Aplicações em Outros Setores

Embora demonstrado no setor de saúde, essa arquitetura é extensível a diversos setores que demandam inteligência especializada:
- Serviços Financeiros: Agentes para conformidade regulatória, avaliação de risco e detecção de fraude, mantendo rigorosos requisitos de segurança e auditoria
- Manufatura e Operações Industriais: Agentes para manutenção preditiva, controle de qualidade e otimização de cadeia de suprimentos, combinando monitoramento de equipamentos com análise complexa
- Energia e Utilidades: Agentes para operação de redes, conformidade regulatória e gerenciamento de infraestrutura, integrando previsão de demanda especializada com análise ambiental avançada
Limpeza de Recursos

Para evitar cobranças futuras, é importante remover os recursos criados após completar os testes. Isso inclui deletar o domínio OpenSearch Service, o cluster ECS, o endpoint SageMaker AI e o servidor de modelo containerizado.

Conclusão

A integração entre a biblioteca smolagents da Hugging Face e os serviços gerenciados da AWS oferece uma abordagem poderosa para construir sistemas de IA agente sofisticados. O design agnóstico do smolagents permite orquestração transparente entre SageMaker AI, Amazon Bedrock e servidores containerizados, oferecendo às organizações opções de deployment em vez de abordagens “tamanho único”.

A arquitetura demonstrada com o caso de uso de saúde ilustra como esses componentes trabalham juntos para oferecer inteligência especializada com controles robustos de segurança e conformidade. Essa mesma abordagem se aplica a setores financeiros, manufatura, energia e outras indústrias onde a confiabilidade e o conhecimento de domínio são críticos.

As inovações técnicas principais incluem compatibilidade de API entre backends, integração do framework smolagents e deploy containerizado com AWS Fargate, criando uma solução extensível e pronta para produção.

Fonte

Agentic AI with multi-model framework using Hugging Face smolagents on AWS (https://aws.amazon.com/blogs/machine-learning/agentic-ai-with-multi-model-framework-using-hugging-face-smolagents-on-aws/)
February 24, 2026
SageMaker AI em 2025: Observabilidade aprimorada e recursos avançados para customização e hospedagem de modelos
Avanços no SageMaker AI durante 2025

Durante 2025, o SageMaker AI recebeu diversas melhorias voltadas para treinar, ajustar e hospedar cargas de trabalho de IA generativa. Na primeira parte desta série, foram abordadas as Planos de Treinamento Flexíveis e as melhorias de custo-desempenho para componentes de inferência. Este artigo foca nos aprimoramentos relacionados à observabilidade, customização de modelos e hospedagem de modelos, que habilitam uma nova classe de casos de uso para ser hospedada no SageMaker AI.

Observabilidade: Visibilidade granular e segurança em implantações

Os aprimoramentos de observabilidade implementados no SageMaker AI durante 2025 proporcionam visibilidade aprofundada sobre o desempenho dos modelos e a saúde da infraestrutura. As métricas melhoradas oferecem rastreamento granular em nível de instância e container, monitorando utilização de CPU, memória e GPU, além de métricas de desempenho de invocação com frequências de publicação configuráveis. Isso permite que equipes diagnostiquem problemas de latência e ineficiências de recursos que anteriormente ficavam ocultas pela agregação em nível de endpoint.

As atualizações progressivas de componentes de inferência transformam a segurança de implantação ao eliminar a necessidade de provisionamento de infraestrutura duplicada. As atualizações são implantadas em lotes configuráveis com monitoramento integrado do Amazon CloudWatch, que dispara rollbacks automáticos se problemas forem detectados, viabilizando implantações sem tempo de inatividade enquanto minimizam riscos por meio de validação gradual.

Métricas aprimoradas para diagnóstico preciso

O SageMaker AI introduziu métricas aprimoradas que fornecem visibilidade granular sobre o desempenho de endpoints e utilização de recursos em níveis de instância e container. Esta capacidade preenche uma lacuna crítica em observabilidade, permitindo que clientes diagnostiquem problemas de latência, falhas de invocação e ineficiências de recursos que antes eram obscurecidas pela agregação em nível de endpoint.

As métricas aprimoradas rastreiam utilização de CPU, memória e GPU em nível de instância, juntamente com métricas de desempenho de invocação como latência, erros e throughput, com dimensões de InstanceId para endpoints SageMaker. Para componentes de inferência, métricas em nível de container oferecem visibilidade no consumo de recursos de réplicas de modelo individuais, com dimensões de ContainerId e InstanceId. A frequência de publicação de métricas é configurável, fornecendo monitoramento quase em tempo real para aplicações críticas que requerem resposta rápida.

A ativação via self-service através de um simples parâmetro MetricsConfig na API CreateEndpointConfig reduz o tempo para obter insights, permitindo autodiagnóstico de problemas de desempenho. As métricas aprimoradas ajudam a identificar qual instância ou container específico requer atenção, diagnosticar distribuição desigual de tráfego entre hosts, otimizar alocação de recursos e correlacionar problemas de desempenho com recursos de infraestrutura específicos.

O recurso funciona perfeitamente com alarmes CloudWatch e políticas de escalamento automático, fornecendo monitoramento proativo e respostas automatizadas a anomalias de desempenho. Para ativar as métricas aprimoradas, adicione o parâmetro MetricsConfig ao criar sua configuração de endpoint:
```
response = sagemaker_client.create_endpoint_config(
    EndpointConfigName='my-config',
    ProductionVariants=[{...}],
    MetricsConfig={
        'EnableEnhancedMetrics': True,
        'MetricPublishFrequencyInSeconds': 60  # Suportados: 10, 30, 60, 120, 180, 240, 300
    }
)
```
As métricas aprimoradas estão disponíveis em todas as regiões da AWS, tanto para endpoints de modelo único quanto para componentes de inferência, proporcionando observabilidade abrangente para implantações de IA em produção em escala.

Atualizações progressivas com proteção contra falhas

O SageMaker AI introduziu atualizações progressivas para componentes de inferência, transformando como você pode implantar atualizações de modelo com segurança e eficiência aprimoradas. Implantações tradicionais de blue/green requerem provisionamento de infraestrutura duplicada, criando restrições de recursos — particularmente para cargas de trabalho pesadas em GPU, como modelos de linguagem grandes.

As atualizações progressivas implantam novas versões de modelo em lotes configuráveis enquanto dimensionam a infraestrutura dinamicamente, com alarmes CloudWatch integrados monitorando métricas para disparar rollbacks automáticos se problemas forem detectados. Esta abordagem alivia a necessidade de provisionar frotas duplicadas, reduz o overhead de implantação e ativa atualizações sem tempo de inatividade por meio de validação gradual que minimiza riscos mantendo disponibilidade.

Para mais detalhes, consulte Enhance deployment guardrails with inference component rolling updates for Amazon SageMaker AI inference.

Usabilidade: Removendo complexidade e acelerando o time-to-value

Os aprimoramentos de usabilidade do SageMaker AI focam em remover complexidade e acelerar o tempo para agregar valor para equipes de IA. A customização de modelo serverless reduz o tempo de planejamento de infraestrutura pelo provisionamento automático de recursos de computação baseado no tamanho do modelo e dados, suportando técnicas avançadas como aprendizado por reforço de recompensas verificáveis (RLVR) e aprendizado por reforço de feedback de IA (RLAIF) por meio de fluxos de trabalho baseados em interface e código com rastreamento de experimentos MLflow integrado.

O streaming bidirecional ativa aplicações multimodais em tempo real mantendo conexões persistentes onde dados fluem simultaneamente em ambas as direções — transformando casos de uso como agentes de voz e transcrição ao vivo de trocas transacionais em conversas contínuas. A conectividade aprimorada por meio de suporte abrangente a AWS PrivateLink em todas as regiões e compatibilidade IPv6 garante que implantações empresariais possam atender requisitos rigorosos de conformidade enquanto futuro-prova arquiteturas de rede.

Customização serverless de modelos

A nova capacidade de customização serverless do SageMaker AI aborda um desafio crítico enfrentado por organizações: o processo extenso e complexo de ajuste fino de modelos de IA, que tradicionalmente leva meses e requer expertise significativa em gerenciamento de infraestrutura. Muitas equipes enfrentam dificuldades ao selecionar recursos de computação apropriados, gerenciar a complexidade técnica de técnicas avançadas de ajuste fino como aprendizado por reforço, e navegar pelo fluxo de trabalho completo desde seleção de modelo até avaliação e implantação.

Esta solução serverless remove essas barreiras ao provisionar automaticamente os recursos de computação corretos baseado no tamanho do modelo e dados, possibilitando equipes focarem no ajuste de modelo em vez de gerenciamento de infraestrutura, acelerando o processo de customização. A solução suporta modelos populares incluindo Amazon Nova, DeepSeek, GPT-OSS, Llama e Qwen, fornecendo fluxos de trabalho de customização baseados em interface e código que tornam técnicas avançadas acessíveis para equipes com níveis variados de expertise técnica.

A solução oferece múltiplas técnicas de customização avançada, incluindo ajuste fino supervisionado, otimização de preferência direta, RLVR e RLAIF. Cada técnica otimiza modelos de formas diferentes, com seleção influenciada por fatores como tamanho e qualidade do dataset, recursos computacionais disponíveis, requisitos de tarefa, níveis de precisão desejados e restrições de implantação.

A solução inclui rastreamento de experimentos integrado via MLflow serverless para logging automático de métricas críticas sem modificações de código, ajudando equipes monitorar e comparar desempenho de modelo durante o processo de customização. A flexibilidade de implantação é uma característica-chave, com opções para implantar em Amazon Bedrock para inferência serverless ou endpoints SageMaker AI para gerenciamento controlado de recursos.

A solução inclui capacidades de avaliação de modelo integradas para comparar modelos customizados contra modelos base, um playground interativo para testes com prompts ou modo chat, e integração perfeita com o ambiente mais amplo do Amazon SageMaker Studio. Este fluxo de trabalho completo — desde seleção de modelo e customização até avaliação e implantação — é tratado inteiramente em uma interface unificada.

Atualmente disponível nas regiões US East (N. Virginia), US West (Oregon), Asia Pacific (Tokyo) e Europe (Ireland), o serviço opera em modelo de cobrança por token tanto para treinamento quanto inferência. Esta abordagem de preço torna rentável para organizações de diferentes tamanhos customizar modelos de IA sem investimentos de infraestrutura antecipada, e a arquitetura serverless garante que equipes possam dimensionar seus esforços de customização de modelo baseado em uso real em vez de capacidade provisionada.

Para mais informações sobre esta capacidade central, consulte New serverless customization in Amazon SageMaker AI accelerates model fine-tuning.

Streaming bidirecional para inferência em tempo real

O SageMaker AI introduziu a capacidade de streaming bidirecional durante 2025, transformando inferência de trocas transacionais em conversas contínuas entre usuários e modelos. Este recurso ativa dados para fluir simultaneamente em ambas as direções por uma única conexão persistente, suportando casos de uso multimodais em tempo real variando desde transcrição e tradução de áudio até agentes de voz.

Diferente de abordagens tradicionais onde clientes enviam questões completas e esperam por respostas completas, o streaming bidirecional permite que fala e respostas fluam concorrentemente — usuários veem resultados assim que modelos iniciam gerá-los, e modelos mantêm contexto através de streams contínuos sem reenviarem histórico de conversa.

A implementação combina protocolos HTTP/2 e WebSocket, com a infraestrutura SageMaker gerenciando conexões eficientemente multiplexadas de clientes através de roteadores até containers de modelo. O recurso suporta implementações bring-your-own-container e integrações com parceiros, com Deepgram servindo como parceiro de lançamento oferecendo seu modelo Nova-3 de fala-para-texto através do AWS Marketplace.

Esta capacidade aborda requisitos empresariais críticos para aplicações de IA de voz em tempo real — particularmente para organizações com necessidades de conformidade rigorosa requerendo processamento de áudio permanecer dentro de sua nuvem privada virtual da Amazon (VPC) — enquanto remove o overhead operacional tradicionalmente associado com soluções de IA em tempo real auto-hospedadas.

A abordagem de conexão persistente reduz overhead de infraestrutura de handshakes TLS e gerenciamento de conexão, substituindo conexões de curta duração com sessões eficientes de longa duração. Desenvolvedores podem implementar streaming bidirecional através de duas abordagens: construir containers customizados que implementam o protocolo WebSocket em ws://localhost:8080/invocations-bidirectional-stream com o rótulo Docker apropriado (com.amazonaws.sagemaker.capabilities.bidirectional-streaming=true), ou implantar soluções pré-construídas de parceiros como o modelo Nova-3 da Deepgram diretamente do AWS Marketplace.

O recurso requer containers para processar quadros de dados WebSocket recebidos e enviar quadros de resposta de volta ao SageMaker, com implementações de amostra disponíveis em Python e TypeScript. Para mais detalhes, consulte Introducing bidirectional streaming for real-time inference on Amazon SageMaker AI.

Conectividade empresarial: IPv6 e PrivateLink

O SageMaker AI expandiu suas capacidades de conectividade durante 2025 com suporte abrangente a PrivateLink em todas as regiões e compatibilidade IPv6 tanto para endpoints públicos quanto privados. Estes aprimoramentos melhoram significativamente a acessibilidade e postura de segurança do serviço para implantações empresariais.

A integração PrivateLink torna possível acessar endpoints SageMaker AI de forma privada a partir de suas VPCs sem percorrer a internet pública, mantendo o tráfego dentro da infraestrutura de rede da AWS. Isto é particularmente valioso para organizações com requisitos rigorosos de conformidade ou políticas de residência de dados que demandam conectividade privada para cargas de trabalho de aprendizado de máquina.

A adição de suporte IPv6 para endpoints SageMaker AI aborda a necessidade crescente de endereçamento IP moderno conforme organizações transitam do IPv4. Você pode agora acessar serviços SageMaker AI usando endereços IPv6 tanto para endpoints públicos quanto para endpoints VPC privados, fornecendo flexibilidade no design de arquitetura de rede e futuro-prova investimentos em infraestrutura. A capacidade de dual-stack (suportando IPv4 e IPv6) facilita compatibilidade retroativa enquanto ajuda organizações adotar IPv6 em seu próprio ritmo.

Combinados com PrivateLink, estes aprimoramentos de conectividade tornam o SageMaker AI mais acessível e seguro para ambientes de rede empresariais diversos, desde centros de dados tradicionais on-premises conectando usando AWS Direct Connect até arquiteturas modernas baseadas em nuvem construídas inteiramente em IPv6.

Conclusão

Os aprimoramentos de 2025 no SageMaker AI representam um avanço significativo em tornar cargas de trabalho de IA generativa mais observáveis, confiáveis e acessíveis para clientes empresariais. De métricas de desempenho granulares que identificam gargalos de infraestrutura até customização serverless, estes aprimoramentos tratam desafios do mundo real que equipes enfrentam ao implantar IA em escala. A combinação de observabilidade aprimorada, mecanismos de implantação mais seguros e fluxos de trabalho simplificados capacita organizações a se moverem mais rápido mantendo os padrões de confiabilidade e segurança requeridos para sistemas em produção.

Essas capacidades estão disponíveis agora em todas as regiões, com recursos como métricas aprimoradas, atualizações progressivas e customização serverless prontos para transformar como você constrói e implanta aplicações de IA. Se você está ajustando modelos para tarefas específicas de domínio, construindo agentes de voz em tempo real com streaming bidirecional, ou facilitando segurança de implantação com atualizações progressivas e monitoramento integrado, o SageMaker AI fornece as ferramentas para acelerar sua jornada de IA enquanto reduz complexidade operacional.

Começando agora

Para explorar estas capacidades, consulte a documentação de métricas aprimoradas, experimente a customização de modelo serverless, ou implemente o streaming bidirecional para suas cargas de trabalho de inferência em tempo real. Para orientação abrangente sobre implementação desses recursos, consulte a Documentação do Amazon SageMaker AI ou entre em contato com sua equipe de conta da AWS para discutir como estas capacidades podem suportar seus casos de uso específicos.

Fonte

Amazon SageMaker AI in 2025, a year in review part 2: Improved observability and enhanced features for SageMaker AI model customization and hosting (https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-ai-in-2025-a-year-in-review-part-2-improved-observability-and-enhanced-features-for-sagemaker-ai-model-customization-and-hosting/)
February 21, 2026
Integrando Ferramentas Externas ao Amazon Quick Agents com Model Context Protocol (MCP)
Entendendo a Integração via Model Context Protocol

O Amazon Quick suporta integrações pelo Model Context Protocol (MCP), um padrão que permite a execução de ações, acesso a dados e integração de agentes de IA. A proposta é simples, mas poderosa: você expõe as capacidades da sua aplicação como ferramentas MCP hospedando um servidor MCP próprio e configurando a integração no Amazon Quick.

Quando o Amazon Quick atua como cliente MCP e se conecta ao seu servidor, ele passa a ter acesso às ferramentas que você expõe. Seus agentes de IA e automações podem, então, invocar essas ferramentas para recuperar dados e executar ações no seu produto, sempre respeitando a autenticação, autorização e controles de governança do cliente.

O benefício dessa abordagem é criar um contrato de integração repetível: você define as ferramentas uma única vez, publica um endpoint estável e mantém o mesmo modelo funcional para todos os seus clientes. Isso elimina a necessidade de construir conectores customizados para cada caso de uso específico.

Visão Geral da Solução

O Amazon Quick inclui um cliente MCP que você configura por meio de uma integração. Essa integração se conecta a um servidor MCP remoto, descobre as ferramentas e fontes de dados que o servidor expõe e as torna disponíveis para agentes e automações de IA. As integrações MCP no Amazon Quick suportam tanto a execução de ações quanto o acesso a dados, incluindo a criação de bases de conhecimento.

O fluxo funciona assim: clientes do Amazon Quick invocam capacidades de aplicações expostas como ferramentas MCP por fornecedores independentes de software (ISVs), sistemas corporativos ou soluções customizadas através da integração MCP.

Requisitos Iniciais

Antes de começar, certifique-se de que você possui:
- Uma assinatura Amazon Quick Professional
- Um usuário Amazon Quick com permissões de Autor ou superiores para criar conectores de ação
- Um endpoint de servidor MCP remoto acessível a partir do Amazon Quick
- Uma abordagem de autenticação que o seu servidor MCP suporte, seja autenticação de usuário, autenticação entre serviços ou ausência de autenticação
- Um conjunto inicial pequeno de capacidades do seu produto como APIs a serem expostas como ferramentas MCP (comece pelas operações que seus clientes mais utilizam)
Checklist de Seis Etapas para Integração com Amazon Quick

Etapa 1: Escolha o Modelo de Implantação do Servidor MCP

Decida como você vai hospedar seu endpoint MCP e isolar inquilinos (tenants). Dois padrões funcionam bem:
- Endpoint multi-inquilino compartilhado: Um único endpoint MCP atende múltiplos clientes. Sua camada de autenticação e autorização mapeia cada requisição para um inquilino e usuário, e implementa isolamento de inquilino em cada chamada de ferramenta.
- Endpoint dedicado por inquilino: Cada cliente recebe um endpoint MCP único ou instância de servidor dedicada. Você provisiona e opera uma URL estável e credenciais para cada inquilino.
Escolha o modelo que melhor se alinhe com sua arquitetura SaaS e modelo de suporte. Se você já executa uma camada de API multi-inquilino com autorização ciente de inquilino, um endpoint MCP compartilhado é adequado. Se você necessita de fronteiras de isolamento mais fortes ou controles de conformidade separados, endpoints dedicados reduzem o impacto de incidentes.

Etapa 2: Implemente um Servidor MCP Remoto Compatível com Amazon Quick

Seu servidor MCP deve estar em conformidade com a especificação MCP e se alinhar com as restrições do cliente Amazon Quick. Foque em transporte, definições de ferramentas e limites operacionais.

Requisitos de Transporte e Conectividade:
- Exponha seu servidor MCP através de um endpoint público acessível do Amazon Quick
- Use HTTPS em produção
- Suporte um transporte remoto — o Amazon Quick oferece suporte a Server-Sent Events (SSE) e HTTP com streaming, sendo HTTP com streaming a opção preferida
Requisitos de Ferramenta e Recursos:
- Defina ferramentas MCP usando JSON schema para que o cliente MCP do Amazon Quick possa descobri-las e invocá-las através de listTools e callTool
- Mantenha nomes de ferramentas consistentes e versione o comportamento das ferramentas intencionalmente
- O Amazon Quick trata a lista de ferramentas como estática após o registro; administradores precisam restabelecer a conexão para que mudanças no lado do servidor se reflitam
- Se sua integração incluir acesso a dados, exponha fontes de dados e recursos para que o Amazon Quick possa utilizá-los na criação de bases de conhecimento
Limitações do Cliente MCP do Amazon Quick:
- Cada operação MCP possui um timeout fixo de 300 segundos; operações que excedem esse limite falham com HTTP 424
- A criação de conectores pode falhar se a URI de callback do Amazon Quick não estiver na lista de permissão do seu provedor de identidade ou servidor de autorização
Etapa 3: Implemente Autenticação e Autorização

As integrações MCP do Amazon Quick suportam múltiplos padrões de autenticação. Escolha o padrão que corresponda a como seus clientes desejam que o Amazon Quick acesse seu produto e implemente autorização em cada invocação de ferramenta.

Autenticação de Usuário:

Use OAuth 2.0 com fluxo de código de autorização quando o Amazon Quick precisar agir em nome de usuários individuais. Suporte OAuth Dynamic Client Registration (DCR) se desejar que o Amazon Quick registre o cliente automaticamente. Caso contrário, documente o ID do cliente, segredo do cliente, URL de token, URL de autorização e URL de redirecionamento que seus clientes devem informar durante a configuração da integração. Emita tokens de acesso com escopo de inquilino e usuário, e implemente controle de acesso baseado em papéis (RBAC) de nível de usuário para cada chamada de ferramenta.

Autenticação entre Serviços:

Use autenticação entre serviços quando o Amazon Quick precisar chamar seu servidor MCP como um cliente de máquina (por exemplo, contas de serviço compartilhadas ou automação de backend). Valide tokens de credenciais de cliente em cada requisição e implemente acesso com escopo de inquilino.

Sem Autenticação:

Use sem autenticação apenas para servidores MCP públicos ou de demonstração. Por exemplo, o AWS Knowledge MCP Server não requer autenticação, mas está sujeito a limites de taxa.

Se você usar a Amazon Bedrock AgentCore Gateway, ela valida requisições de entrada usando autorização baseada em OAuth alinhada com a especificação de autorização MCP. A Gateway funciona como um servidor de recursos OAuth e pode trabalhar com provedores de identidade como Amazon Cognito, Okta ou Auth0. Ela também suporta autenticação de saída para APIs downstream e armazenamento seguro de credenciais. Nesse padrão, o Amazon Quick autentica na Gateway usando o método que você configurar, e a Gateway autentica nas suas APIs downstream.

Requisitos de Lista de Permissão para Redirects OAuth:

Alguns provedores de identidade bloqueiam redirects OAuth a menos que a URI de redirecionamento esteja explicitamente na lista de permissão da configuração do cliente OAuth. Se sua configuração OAuth falhar durante a criação da integração, confirme que seu aplicativo cliente OAuth adiciona à lista de permissão a URI de redirect do Amazon Quick para cada região AWS onde seus clientes usam o Amazon Quick:
- https://us-east-1.quicksight.aws.amazon.com/sn/oauthcallback
- https://us-west-2.quicksight.aws.amazon.com/sn/oauthcallback
- https://ap-southeast-2.quicksight.aws.amazon.com/sn/oauthcallback
- https://eu-west-1.quicksight.aws.amazon.com/sn/oauthcallback
- https://us-east-1-onebox.quicksight.aws.amazon.com/sn/oauthcallback
- https://us-west-2-onebox.quicksight.aws.amazon.com/sn/oauthcallback
- https://ap-southeast-2-onebox.quicksight.aws.amazon.com/sn/oauthcallback
- https://eu-west-1-onebox.quicksight.aws.amazon.com/sn/oauthcallback
Etapa 4: Documente a Configuração para Clientes do Amazon Quick

Antes de conectar ao Amazon Quick, verifique a compatibilidade básica do seu servidor usando o MCP Inspector. Essa ferramenta de desenvolvedor padrão atua como um cliente MCP genérico, permitindo testar conectividade, navegar pelo catálogo de ferramentas e simular execução de ferramentas em um sandbox controlado. Se seu servidor funcionar com o Inspector, é compatível com o protocolo e pronto para integração com Amazon Quick.

Sua integração será bem-sucedida quando você conseguir autenticar em seu Servidor MCP, testar suas ações usando a seção de Teste de APIs e invocar essas ferramentas através de Agentes de Chat e automações. Adicione uma seção de integração Amazon Quick à documentação do seu produto que cubra:
- Endpoint do servidor MCP: a URL exata que clientes informarão no campo de endpoint do servidor MCP do Amazon Quick
- Método de autenticação: qual opção do Amazon Quick escolher (autenticação de usuário ou autenticação entre serviços ou sem autenticação), mais os campos e valores necessários
- Detalhes OAuth (se utilizados): escopos necessários, papéis e pré-requisitos como adicionar à lista de permissão a URI de callback do Amazon Quick
- Notas de rede e segurança: quaisquer requisitos de lista de permissão, restrições de residência de dados ou implicações de conformidade
- Catálogo de ferramentas: as ferramentas que você expõe, o que cada uma faz, permissões necessárias e comportamento em caso de erro
Etapa 5: Registre a Integração MCP no Amazon Quick

Depois que seu servidor estiver pronto, seu cliente pode criar uma integração MCP no console do Amazon Quick. Faça login no console do Amazon Quick com um usuário que tenha permissões de Autor ou superiores. Escolha Integrações, depois Adicionar (+), e então escolha Model Context Protocol (MCP).

Na página Criar Integração, informe um Nome, uma Descrição opcional e a URL do seu endpoint do servidor MCP. Clique em Próximo. Selecione o método de autenticação que seu servidor suporta (autenticação de usuário ou autenticação entre serviços) e informe os valores de configuração necessários. Se seu Servidor MCP suportar DCR, essa etapa de autenticação será pulada e a troca de credenciais do cliente ocorre durante a etapa de login.

Clique em Criar e Continuar. Revise as ferramentas e capacidades de dados descobertas do seu servidor MCP, depois clique em Próximo. Se desejar que outros usuários usem a integração, compartilhe-a. Quando terminar, clique em Concluído.

Note que o Amazon Quick não faz polling para mudanças de schema. Se você modificar assinaturas de ferramentas ou adicionar novas capacidades, deve orientar seus clientes a se autenticarem novamente ou atualizarem suas configurações de integração para que essas mudanças entrem em vigor.

Etapa 6: Operate, Monitore e Meça seu Servidor MCP

Trate seu servidor MCP como uma superfície de API em produção. Adicione os controles operacionais que você já usa para suas APIs SaaS, tornando-os cientes de inquilino.

Logging e Observabilidade:

Registre cada invocação de ferramenta com identificador de inquilino, identificador de usuário (quando disponível), nome da ferramenta, latência, status e detalhes de erro.

Throttling e Quotas:

Implemente limites de taxa por inquilino para proteger sistemas downstream e retorne erros claros de throttling.

Versionamento:

Coordene mudanças de ferramentas com sua documentação e fluxo de atualização dos clientes. Trate nomes de ferramentas e schemas como um contrato.

Operações de Segurança:

Suporte rotação de credenciais, revogação de token e trilhas de auditoria para ações administrativas.

Metering (Opcional):

Registre uso por inquilino (por exemplo, chamadas de ferramenta ou volume de dados) para alinhar com seu modelo de preços SaaS ou metering do AWS Marketplace.

Opções para Construir e Hospedar Servidores MCP

Se suas aplicações e provedores de serviços não possuem um servidor MCP, você tem várias opções:
- Construa e hospede seu próprio servidor MCP usando um SDK MCP que suporte HTTP com streaming ou SSE. Para orientação para desenvolvedores MCP, consulte a documentação do Model Context Protocol. Para exemplos de código para hospedá-lo na AWS, consulte a orientação de implantação.
- Execute seu servidor MCP no Amazon Bedrock AgentCore Runtime, que suporta a hospedagem de servidores MCP de forma gerenciada. Para detalhes sobre hospedagem de agentes ou ferramentas, consulte a documentação de hospedagem de agentes ou ferramentas.
- Fronteie APIs REST existentes ou funções AWS Lambda com Amazon Bedrock AgentCore Gateway, que pode converter APIs e serviços em ferramentas compatíveis com MCP e expô-las através de endpoints gateway. Para uma visão geral, consulte Apresentando Amazon Bedrock AgentCore Gateway.
Para exemplos end-to-end, você pode consultar um exemplo de conectar Amazon Quick a aplicações corporativas e agentes com MCP que usa AgentCore Gateway como endpoint do servidor MCP. De forma similar, você pode revisar um exemplo de construir um Servidor MCP Customizado no Agentcore Runtime com código de amostra.

Limpeza

Se você criou uma integração MCP do Amazon Quick para testes, delete-a quando não precisar mais dela. Para deletar uma integração, no console do Amazon Quick, escolha Integrações. Na tabela de integrações, selecione a integração que deseja remover. No menu Ações (menu com três pontos), escolha Deletar Integração. Na caixa de diálogo de confirmação, revise os detalhes da integração e qualquer recurso dependente que será afetado. Clique em Deletar para confirmar a remoção.

Se você usou OAuth para a integração, também revogue o cliente do Amazon Quick em seu servidor de autorização e delete qualquer credencial de teste que criou.

Conclusão

As integrações MCP do Amazon Quick oferecem a seus clientes uma forma padronizada de conectar agentes e automações de IA ao seu produto. Quando você expõe suas capacidades como ferramentas MCP em um servidor MCP remoto, os clientes podem configurar a conexão no console do Amazon Quick e usar suas ferramentas em múltiplos fluxos de trabalho.

Comece com um pequeno conjunto de ferramentas de alto valor, projete cada chamada de ferramenta para completar dentro do limite de 300 segundos, e documente o endpoint exato e configurações de autenticação que os clientes precisam usar. Após validar o fluxo de integração no Amazon Quick, expanda seu catálogo de ferramentas e adicione os controles operacionais que você usa para qualquer API em produção.

Para os próximos passos, revise a documentação de integração MCP do Amazon Quick e depois use o checklist deste artigo para validar seu servidor. Se desejar opções da AWS para construir e hospedar servidores MCP, consulte a documentação do AgentCore e Implantando servidores de model context protocol na AWS.

Fonte

Integrate external tools with Amazon Quick Agents using Model Context Protocol (MCP) (https://aws.amazon.com/blogs/machine-learning/integrate-external-tools-with-amazon-quick-agents-using-model-context-protocol-mcp/)
February 21, 2026
SageMaker AI em 2025: Planos Flexíveis de Treinamento e Melhorias de Custo-Benefício para Inferência

Transformações no SageMaker AI durante 2025

O Amazon SageMaker AI experimentou aprimoramentos substanciais em sua infraestrutura fundamental durante 2025, abrangendo quatro pilares estratégicos: capacidade computacional, custo-benefício, observabilidade e usabilidade. Esta série de análises explora em detalhes como essas evoluções beneficiam os times de dados e ciência da computação que trabalham com modelos generativos em escala produtiva.

Fonte

Amazon SageMaker AI in 2025, a year in review part 1: Flexible Training Plans and improvements to price performance for inference workloads (https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-ai-in-2025-a-year-in-review-part-1-flexible-training-plans-and-improvements-to-price-performance-for-inference-workloads/)

February 21, 2026
Atores de Ameaça Potencializados por IA Acessam Dispositivos FortiGate em Larga Escala

Inteligência de Ameaças: Um Novo Panorama de Ciberataques Amplificados por IA

Os serviços comerciais de inteligência artificial estão transformando o cenário de ciberataques. A Amazon Threat Intelligence vem rastreando de perto uma tendência preocupante: atores de ameaça menos sofisticados agora conseguem executar operações em escala massiva com ajuda de ferramentas de IA generativa. Uma investigação recente ilustra essa mudança de forma alarmante.

Entre janeiro e fevereiro de 2026, a Amazon Threat Intelligence detectou um ator de ameaça falante de russo, financeiramente motivado, que utilizou múltiplos serviços comerciais de IA generativa para comprometer mais de 600 dispositivos FortiGate distribuídos em mais de 55 países. O aspecto crítico: nenhuma vulnerabilidade zero-day ou exploração avançada foi necessária. Em vez disso, o ataque explorou lacunas de segurança fundamental — portas de gerenciamento expostas à internet e credenciais fracas com autenticação de fator único — que a IA ajudou a explorar em escala industrial.

Este padrão de operação é notável porque revela algo importante: a IA funcionou como multiplicador de força, permitindo que um ator com capacidades técnicas limitadas alcançasse escala operacional que normalmente exigiria equipes maiores e mais especializadas. Vale ressaltar que a infraestrutura da AWS não foi envolvida nesta campanha.

A Democratização do Ataque Cibernético

Um Ator Financeiramente Motivado, Não uma Nação-Estado

A análise da Amazon Threat Intelligence aponta para um ator financeiramente motivado — provavelmente um indivíduo ou pequeno grupo — sem conexão conhecida com grupos de ameaça persistente avançada (Ameaças Persistentes Avançadas – APAs) com recursos patrocinados por estados. Apesar dessa limitação técnica baseline, o ator comprometeu múltiplos ambientes Active Directory, extraiu bases de dados completas de credenciais e direcionou infraestrutura de backup — tudo isso consistente com preparação para implantação de ransomware.

O padrão operacional revelou algo significativo: quando o ator enfrentava ambientes endurecidos ou defesas sofisticadas, simplesmente migrava para alvos mais fáceis, em vez de persistir. Isso demonstra que a vantagem reside na eficiência amplificada por IA e escala operacional, não em habilidade técnica profunda.

Qual Era a Metodologia?

A investigação ganhou visibilidade extraordinária porque o ator teve falhas graves de segurança operacional. A infraestrutura maliciosa deixou expostos planos de ataque gerados por IA, configurações de vítimas e código-fonte de ferramentas personalizadas — basicamente um arquivo de operações completo. Isso permitiu à Amazon Threat Intelligence documentar precisamente como o ator utilizava IA em cada fase.

Como o Ataque Começou: Acesso Inicial por Abuso de Credenciais

Varredura Sistemática e Credenciais Comuns

O vetor inicial de acesso foi baseado em credenciais — acesso direto às interfaces de gerenciamento de FortiGate expostas à internet. A análise das ferramentas do ator revelou varredura sistemática em portas 443, 8443, 10443 e 4443, seguida por tentativas de autenticação usando credenciais frequentemente reutilizadas.

Arquivos de configuração do FortiGate são alvos de alto valor porque contêm informações críticas: credenciais de usuário SSL-VPN com senhas recuperáveis, credenciais administrativas, topologia completa de rede e informações de roteamento, políticas de firewall que revelam arquitetura interna, e configurações de pares IPsec VPN.

Ferramentas Assistidas por IA para Extração de Dados

O ator desenvolveu scripts Python assistidos por IA para fazer parsing, descriptografar e organizar as configurações roubadas. A escala de distribuição foi oportunista em vez de setorial — consistente com varredura automatizada massiva. Porém, certos padrões sugerem comprometimento no nível organizacional, onde múltiplos dispositivos FortiGate pertencentes à mesma entidade foram acessados. Concentrações de dispositivos comprometidos foram observadas na Ásia do Sul, América Latina, Caribe, África Ocidental, Europa do Norte e Sudeste Asiático, entre outras regiões.

Ferramentas Personalizadas: Um Framework de Reconhecimento Gerado por IA

Sinais de Desenvolvimento Assistido por IA

Após acessar redes de vítimas via VPN, o ator implanta uma ferramenta de reconhecimento personalizada, com versões escritas tanto em Go quanto em Python. A análise do código-fonte revela indicadores claros de desenvolvimento assistido por IA: comentários redundantes que apenas reafirmam nomes de funções, arquitetura simplista com investimento desproporcional em formatação sobre funcionalidade, parsing JSON ingênuo via correspondência de string em vez de desserialização apropriada, e shims de compatibilidade para built-ins de linguagem com stubs vazios de documentação.

Embora funcional para o caso de uso específico do ator, as ferramentas carecem de robustez e falham em casos extremos — características típicas de código gerado por IA sem refinamento significativo.

Fluxo de Trabalho Automatizado do Ator

A ferramenta automatiza o fluxo de reconhecimento pós-VPN: ingere redes-alvo a partir de tabelas de roteamento VPN, classifica redes por tamanho, executa descoberta de serviço usando gogo (scanner de porta de código aberto), identifica automaticamente hosts SMB e controladores de domínio, e integra varredura de vulnerabilidades usando Nuclei (scanner de vulnerabilidades de código aberto) contra serviços HTTP descobertos para produzir listas de alvos priorizadas.

Pós-Exploração: Técnicas Bem Conhecidas com Escala Amplificada

Comprometimento de Domínio

Dentro das redes de vítimas, o ator segue uma abordagem padrão usando ferramentas ofensivas de código aberto conhecidas. A documentação operacional detalha o uso pretendido de Meterpreter (kit de pós-exploração de código aberto) com o módulo mimikatz para executar ataques DCSync contra controladores de domínio, permitindo extrair hashes de senha NTLM do Active Directory. Em comprometimentos confirmados, o ator obteve bases de dados de credenciais de domínio completas. Em pelo menos um caso, a conta de Administrador de Domínio usava uma senha em texto simples, extraída da configuração FortiGate por reutilização de credenciais ou era independentemente fraca.

Movimento Lateral e Backup Targeting

Após comprometimento de domínio, o ator tenta expandir acesso através de ataques pass-the-hash/pass-the-ticket contra infraestrutura adicional, ataques NTLM relay usando ferramentas padrão de envenenamento, e execução remota de comando em hosts Windows. Especificamente, o ator direcionou servidores Veeam Backup & Replication, implantando múltiplas ferramentas para extração de credenciais, incluindo scripts PowerShell, ferramentas compiladas de descriptografia e tentativas de exploração alavancando vulnerabilidades conhecidas de Veeam. Servidores de backup são alvos de alto valor porque tipicamente armazenam credenciais elevadas para operações de backup, e comprometer infraestrutura de backup posiciona um atacante para destruir capacidades de recuperação antes de implantar ransomware.

Falhas de Exploração: O Limite da Dependência de IA

As notas operacionais do ator referenciam múltiplas Vulnerabilidades e Exposições Comuns (CVEs) em vários alvos (CVE-2019-7192, CVE-2023-27532, CVE-2024-40711, entre outros). Um achado crítico é que o ator largamente falhou ao tentar explorar qualquer coisa além dos caminhos de ataque mais diretos e automatizados. Sua própria documentação registra falhas repetidas: serviços direcionados estavam corrigidos, portas necessárias estavam fechadas, vulnerabilidades não se aplicavam às versões do sistema operacional alvo. A avaliação operacional final para uma vítima confirmada reconheceu que infraestrutura-chave estava “bem protegida” com “nenhum vetor de exploração vulnerável”.

A IA Como Multiplicador de Força Operacional

Múltiplos Provedores de Modelos Usados Simultaneamente

A análise revelou que o ator utiliza pelo menos dois provedores de Modelo de Linguagem (Modelo de Linguagem – ML) comerciais distintos em todas as operações. A IA foi usada para gerar metodologias de ataque abrangentes com instruções de exploração passo a passo, taxas de sucesso esperadas, estimativas de tempo e árvores de tarefas priorizadas. Esses planos referenciam pesquisa acadêmica sobre agentes de IA ofensiva, sugerindo que o ator acompanha literatura emergente sobre testes de penetração assistidos por IA.

A IA produz sequências de comando tecnicamente precisas, mas o ator tem dificuldade em se adaptar quando as condições diferem do plano. Não consegue compilar exploits customizados, depurar tentativas de exploração falhadas ou fazer pivôs criativos quando abordagens padrão falham.

Fluxo de Trabalho Multi-Modelo

Um modelo serve como desenvolvedor de ferramentas primário, planejador de ataque e assistente operacional. Um segundo é usado como planejador de ataque suplementar quando o ator precisa ajuda fazendo pivô dentro de uma rede comprometida específica. Em uma instância observada, o ator submeteu a topologia interna completa de uma vítima ativa — endereços IP, nomes de host, credenciais confirmadas e serviços identificados — e solicitou um plano passo a passo para comprometer sistemas adicionais que não conseguiam acessar com ferramentas existentes.

Ferramentas Geradas por IA em Escala

Além do framework de reconhecimento, a infraestrutura do ator contém inúmeros scripts em múltiplas linguagens de programação com características de geração por IA, incluindo parsers de configuração, ferramentas de extração de credenciais, automação de conexão VPN, orquestração de varredura massiva e dashboards de agregação de resultados. O volume e variedade de ferramentas personalizadas normalmente indicariam uma equipe de desenvolvimento bem-recursos. Em vez disso, um ator único ou pequeno grupo gerou todo esse toolkit através de desenvolvimento assistido por IA.

Avaliação do Ator de Ameaça

Com base em análise abrangente, a Amazon Threat Intelligence avalia este ator de ameaça como: Motivação financeira presumida, baseada em direcionamento generalizado e indiscriminado com sofisticação baixa; Falante de russo, baseado em documentação operacional extensa em russo; Capacidade técnica baseline baixa a média, significativamente amplificada por IA — o ator pode executar ferramentas ofensivas padrão e automatizar tarefas rotineiras mas tem dificuldade com compilação de exploits, desenvolvimento customizado e resolução criativa de problemas durante operações ao vivo; Dependência extensiva de IA em todas as fases operacionais, incluindo desenvolvimento de ferramentas, planejamento de ataque, geração de comando e relatório operacional; Escala operacional ampla com dispositivos comprometidos em dezenas de países e evidência de operações sustentadas por período estendido; Profundidade de pós-exploração rasa com falhas repetidas contra alvos endurecidos ou não-padronizados e padrão de migração para alvos mais suaves quando abordagens automatizadas falham; Segurança operacional inadequada com planos operacionais detalhados, credenciais e dados de vítimas armazenados sem criptografia junto com ferramentas.

Resposta e Defesa Organizacional

Ações da Amazon Threat Intelligence

Ao descobrir esta campanha, a Amazon Threat Intelligence tomou ações específicas: compartilhou inteligência acionável, incluindo indicadores de comprometimento, com parceiros relevantes; colaborou com parceiros da indústria para ampliar visibilidade da campanha e apoiar esforços de defesa coordenada. Através desses esforços, a Amazon ajudou a reduzir a efetividade operacional do ator de ameaça e permitiu que organizações em múltiplos países tomassem passos para interromper a eficácia da campanha.

Auditoria de Dispositivos FortiGate

Organizações executando dispositivos FortiGate devem tomar ação imediata: garantir que interfaces de gerenciamento não sejam expostas à internet; se administração remota for necessária, restringir acesso a faixas de IP conhecidas e usar um host bastião ou rede de gerenciamento fora de banda; mudar todas as credenciais padrão e comuns em dispositivos FortiGate, incluindo contas administrativas e de usuário VPN; girar todas as credenciais de usuário SSL-VPN, particularmente para qualquer dispositivo cuja interface de gerenciamento foi ou pode ter sido acessível pela internet; implementar autenticação multifator para todos os acessos administrativos e VPN; revisar configurações de FortiGate para contas administrativas não autorizadas ou mudanças de política; auditar logs de conexão VPN para conexões de localizações geográficas inesperadas.

Higiene de Credenciais

Dada a extração de credenciais de configurações FortiGate: auditar reutilização de senha entre credenciais FortiGate VPN e contas de domínio Active Directory; implementar autenticação multifator para todos os acessos VPN; impor senhas únicas e complexas para todas as contas, particularmente contas de Administrador de Domínio; revisar e girar credenciais de conta de serviço, especialmente aquelas usadas em infraestrutura de backup.

Detecção de Pós-Exploração

Organizações que podem ter sido afetadas devem monitorar: operações DCSync inesperadas (ID de Evento 4662 com GUIDs relacionadas a replicação); novas tarefas agendadas nomeadas para imitar serviços Windows legítimos; conexões de gerenciamento remoto incomuns de pools de endereço VPN; artefatos de envenenamento LLMNR/NBT-NS no tráfego de rede; acesso não autorizado a armazenamentos de credencial de backup; novas contas com nomes projetados para se mesclar com contas de serviço legítimas.

Endurecimento de Infraestrutura de Backup

O foco do ator em infraestrutura de backup destaca a importância de: isolar servidores de backup do acesso de rede geral; fazer patch de software de backup contra vulnerabilidades conhecidas de extração de credenciais; monitorar carregamento não autorizado de módulo PowerShell em servidores de backup; implementar cópias de backup imutáveis que não possam ser modificadas mesmo com acesso administrativo.

Recomendações Específicas para AWS

Para organizações usando AWS: ativar Amazon GuardDuty para detecção de ameaça, incluindo monitoramento de chamadas API incomuns e padrões de uso de credenciais; usar Amazon Inspector para verificar automaticamente por vulnerabilidades de software e exposição de rede não intencional; usar AWS Security Hub para manter visibilidade contínua na postura de segurança; usar AWS Systems Manager Patch Manager para manter conformidade de patch em instâncias EC2 executando dispositivos de rede; revisar padrões de acesso IAM (Identity and Access Management – Gerenciamento de Identidade e Acesso) para sinais de replay de credenciais seguindo qualquer comprometimento suspeito de dispositivo de rede.

Indicadores de Comprometimento e Detecção

A dependência desta campanha em ferramentas ofensivas de código aberto legítimas — incluindo Impacket, gogo, Nuclei e outras — significa que detecção tradicional baseada em indicador tem efetividade limitada. Essas ferramentas são amplamente usadas por testadores de penetração e profissionais de segurança, e sua presença sozinha não é indicativa de comprometimento. Organizações devem investigar contexto ao redor de correspondências, priorizando detecção comportamental (padrões anormais de autenticação VPN, replicação Active Directory inesperada, movimento lateral de pools de endereço VPN) sobre abordagens baseadas em assinatura.

Conclusão: Fundamentos de Segurança Continuam Sendo a Defesa Mais Efetiva

Esta campanha obteve sucesso através de uma combinação de interfaces de gerenciamento expostas, credenciais fracas e autenticação de fator único — todas lacunas de segurança fundamentais que IA ajudou um ator sofisticado explorar em escala. Isso sublinha que fundamentos de segurança forte são defesas poderosas contra ameaças potencializadas por IA. À medida que esperamos que essa tendência continue em 2026, organizações devem antecipar que atividade de ameaça potencializada por IA continuará crescendo em volume tanto de adversários hábeis quanto não-hábeis. Gestão de patch para dispositivos perimetral, higiene de credenciais, segmentação de rede e detecção robusta para indicadores de pós-exploração permanecem as contramedidas mais efetivas.

Fonte

AI-augmented threat actor accesses FortiGate devices at scale (https://aws.amazon.com/blogs/security/ai-augmented-threat-actor-accesses-fortigate-devices-at-scale/)

February 21, 2026
AWS IAM Identity Center agora disponível na região Ásia-Pacífico (Nova Zelândia)

Expansão do IAM Identity Center para Ásia-Pacífico

A AWS anunciou a disponibilidade do AWS IAM Identity Center na região Ásia-Pacífico (Nova Zelândia), ampliando sua cobertura global para 38 regiões AWS. Essa expansão oferece às organizações operando na região uma solução nativa para gerenciar o acesso de seus usuários aos aplicativos e serviços hospedados na nuvem.

O que é o IAM Identity Center

O IAM Identity Center (Centro de Identidade do AWS Identity and Access Management) é o serviço recomendado pela AWS para gerenciar o acesso da força de trabalho aos aplicativos AWS. Seu principal diferencial é a capacidade de conectar uma única vez a fonte de identidades corporativas já existente na organização com a plataforma AWS, eliminando a necessidade de manter múltiplos sistemas de autenticação.

Uma vez integrado, o serviço oferece aos usuários uma experiência de single sign-on unificada em todos os aplicativos AWS, reduzindo fricção e aumentando a produtividade. Os profissionais de TI, por sua vez, ganham um ponto centralizado para administração de identidades, simplificando operações em ambientes complexos.

Capacidades principais

Experiências personalizadas com Amazon Q

O IAM Identity Center alimenta experiências personalizadas oferecidas por aplicativos AWS como o Amazon Q. Graças à integração, o serviço compreende quem é cada usuário e pode adaptar o comportamento de aplicações de acordo com seu perfil e permissões.

Auditoria e controle de acesso consciente do usuário

O serviço permite definir e auditar o acesso de usuários específicos a dados em serviços como o Amazon Redshift. Essa granularidade é essencial para organizações que precisam manter conformidade com regulamentações e políticas internas rigorosas.

Gerenciamento centralizado de múltiplas contas AWS

Para empresas que operam com várias contas AWS, o IAM Identity Center oferece administração centralizada de acesso, evitando a necessidade de configurar identidades repetidamente em cada conta.

Disponibilidade e custos

O IAM Identity Center está disponível na nova região sem custos adicionais, mantendo o modelo de precificação compatível com demais regiões onde o serviço opera. Essa inclusão na região Ásia-Pacífico (Nova Zelândia) reforça o compromisso da AWS de oferecer cobertura global para seus serviços principais de segurança e identidade.

Próximos passos

Organizações interessadas em explorar o IAM Identity Center podem consultar a página de detalhes do produto para compreender melhor as capacidades e arquitetura recomendada. Para começar a usar o serviço de imediato, a documentação do IAM Identity Center oferece guias práticos de implementação e configuração.

Fonte

AWS IAM Identity Center is now available in the Asia Pacific (New Zealand) AWS Region (https://aws.amazon.com/about-aws/whats-new/2026/02/aws-iam-identity-center-asia-pacific-new-zealand-region/)

February 20, 2026