Blog

  • Amazon Bedrock lança tier com capacidade reservada para Claude Sonnet 4.5 no GovCloud

    Capacidade Reservada no Amazon Bedrock

    A AWS anunciou a expansão do tier de capacidade reservada do Amazon Bedrock, uma solução desenvolvida para aplicações que precisam de desempenho previsível e garantia de throughput de tokens por minuto. Este novo tier permite que os clientes reservem capacidade computacional prioritária, mantendo níveis de serviço estáveis para suas aplicações críticas.

    Flexibilidade Assimétrica de Tokens

    Um dos principais diferenciais desta solução está na capacidade de alocar diferentes volumes de tokens por minuto para entrada e saída, permitindo que cada workload seja ajustado com precisão de acordo com suas necessidades específicas. Essa flexibilidade é particularmente valiosa porque muitas aplicações apresentam padrões assimétricos de consumo de tokens.

    Por exemplo, tarefas de sumarização consomem muitos tokens de entrada, mas geram poucos tokens de saída. Em contraste, aplicações de geração de conteúdo requerem menos capacidade de entrada e mais de saída. Com o tier reservado, é possível dimensionar essas capacidades independentemente, otimizando custos sem comprometer performance.

    Operação Contínua com Overflow Automático

    Quando uma aplicação necessita de mais throughput de tokens por minuto do que aquilo que foi reservado, o serviço automaticamente transfere o excesso para o tier padrão sob demanda (Standard), garantindo que as operações continuem sem interrupção. Esse mecanismo de overflow oferece segurança operacional sem a necessidade de pré-provisionar capacidade excessiva.

    Detalhes de Disponibilidade e Preços

    O tier reservado está disponível hoje para o modelo Anthropic Claude Sonnet 4.5 no AWS GovCloud (US-West). Os clientes podem reservar capacidade por 1 mês ou 3 meses, pagando um preço fixo por 1.000 tokens por minuto, com cobrança mensal. O acesso está disponível através do perfil GOV-CRIS entre regiões (GOV-CRIS cross-region profile).

    Continuidade de Escolha e Otimização de Custos

    Com a expansão do tier de capacidade reservada, a AWS reforça seu compromisso em oferecer mais opções aos clientes, ajudando-os a desenvolver, dimensionar e implantar aplicações e agentes que melhoram produtividade e experiência dos usuários, equilibrando requisitos de performance e custos.

    Para obter mais informações sobre as regiões AWS onde o tier reservado do Amazon Bedrock está disponível, consulte a documentação oficial. Para acessar o tier reservado, é necessário entrar em contato com o time de contas da AWS.

    Fonte

    Amazon Bedrock Reserved Tier available now for Claude Sonnet 4.5 in AWS GovCloud (US-West) (https://aws.amazon.com/about-aws/whats-new/2026/01/amazon-bedrock-reserved-tier-for-claude-sonnet-in-govcloud/)

  • EMR Serverless da AWS agora suporta chaves KMS gerenciadas pelo cliente para criptografia de discos locais

    Maior controle sobre criptografia em ambientes de análise de dados

    A Amazon EMR Serverless recebeu uma atualização importante em suas capacidades de segurança. O serviço agora oferece suporte a chaves gerenciadas pelo cliente do Serviço de Gerenciamento de Chaves da AWS (AWS KMS – Key Management Service) para criptografar discos locais. Essa mudança é particularmente significativa para organizações que enfrentam requisitos regulatórios e de conformidade rigorosos, pois amplia as opções de encriptação além das chaves padrão pertencentes à AWS.

    O que é o EMR Serverless

    O Amazon EMR Serverless é uma modalidade de implantação dentro do Amazon EMR que simplifica o trabalho de engenheiros de dados e cientistas de dados. Com essa abordagem, é possível executar frameworks de análise de dados de código aberto sem precisar configurar, gerenciar ou dimensionar clusters e servidores manualmente. A solução abstrai grande parte da complexidade operacional, permitindo que os profissionais concentrem-se na análise em si.

    Criptografia padrão e novas possibilidades

    Anteriormente, os discos locais nos workers do EMR Serverless eram criptografados por padrão utilizando chaves de propriedade da AWS. Com esse novo recurso, clientes com necessidades estritas de regulamentação e conformidade podem agora criptografar discos locais com suas próprias chaves gerenciadas pelo KMS. Essas chaves podem residir na mesma conta ou em conta diferente da organização.

    Flexibilidade na aplicação das chaves

    A integração oferece dois níveis de granularidade para especificação da chave KMS gerenciada pelo cliente:

    • Nível de aplicação: você pode definir a chave no nível da aplicação EMR Serverless, onde ela se aplica a todas as cargas de trabalho submetidas naquela aplicação
    • Nível de execução: alternativamente, é possível especificar a chave para uma execução de job específica ou sessão interativa individual

    Esse design flexível permite que organizações adaptem sua estratégia de criptografia conforme necessário, equilibrando centralização e controle granular.

    Disponibilidade e compatibilidade

    O novo recurso está disponível em todas as versões de EMR suportadas e em todas as regiões da AWS onde o Amazon EMR Serverless opera, incluindo AWS GovCloud (US) e regiões da China. Funciona tanto em aplicações EMR Serverless novas quanto em aplicações existentes, oferecendo compatibilidade retroativa.

    Próximos passos

    Para quem deseja implementar esse recurso, a AWS disponibiliza documentação específica sobre Criptografia de Discos Locais com Chaves KMS do Cliente no Guia do Usuário do Amazon EMR Serverless. A documentação contém detalhes técnicos, exemplos de configuração e orientações para diferentes cenários de uso.

    Fonte

    Amazon EMR Serverless now supports AWS KMS customer managed keys for encrypting local disks (https://aws.amazon.com/about-aws/whats-new/2026/01/amazon-emr-serverless-aws-kms-customer-managed)

  • Agentes Strands para criar soluções multi-agente com Llama 4 da Meta e Amazon Bedrock

    Por que arquiteturas multi-agente estão transformando a inteligência artificial

    Soluções que envolvem redes de agentes colaborando, coordenando e raciocinando juntos estão mudando a forma como organizações enfrentam desafios reais. Em ambientes corporativos complexos, gerenciar múltiplas fontes de dados, objetivos em constante mudança e diversas restrições operacionais é uma realidade. É justamente nesse contexto que as arquiteturas multi-agente se destacam.

    Quando múltiplos agentes — cada um com suas ferramentas especializadas, memória ou perspectivas únicas — interagem e raciocinam coletivamente, as organizações desbloqueiam capacidades poderosas:

    • Escalabilidade: Frameworks multi-agente conseguem lidar com tarefas de crescente complexidade, distribuindo cargas de trabalho inteligentemente e se adaptando em tempo real.
    • Resiliência: Quando agentes trabalham em conjunto, falhas em um podem ser compensadas por outros, criando sistemas robustos e tolerantes a falhas.
    • Especialização: Agentes individuais se destacam em domínios específicos — como finanças, transformação de dados ou suporte ao usuário — mas conseguem colaborar perfeitamente para resolver problemas multidisciplinares.
    • Resolução dinâmica de problemas: Sistemas multi-agente podem se reconfigurar rapidamente, mudar de direção e responder a mudanças, essencial em ambientes voláteis de negócios, segurança e operações.

    Frameworks de IA agentica facilitam a construção de soluções inteligentes

    Lançamentos recentes em frameworks de IA agentica, como Strands Agents, estão facilitando para desenvolvedores a participação na criação e implementação de soluções multi-agente acionadas por modelos de linguagem. Em vez de depender de fluxos de trabalho manuais e frágeis, esses frameworks permitem que modelos robustos de linguagem raciocinem, planejem e invoquem ferramentas de forma autônoma.

    Em ambiente de produção, serviços como Amazon Bedrock AgentCore oferecem implementação segura e escalável, com recursos como memória persistente, integração de identidade e observabilidade em nível empresarial. Essa mudança em direção a soluções colaborativas e multi-agente de IA está revolucionando arquiteturas de software, tornando-as mais autônomas, resilientes e adaptáveis.

    De resolução de problemas em tempo real em infraestruturas de nuvem até automação entre equipes em serviços financeiros e assistentes baseados em chat coordenando processos comerciais complexos e multietapas, organizações que adotam soluções multi-agente estão se posicionando para maior agilidade e inovação. Agora, com frameworks abertos como Strands, qualquer pessoa pode começar a construir sistemas inteligentes que pensam, interagem e evoluem juntos.

    Processamento automático de vídeos com agentes especializados

    Este artigo explora como construir um fluxo de trabalho multi-agente de processamento de vídeos usando Strands Agents SDK, modelos Llama 4 da Meta com suas capacidades multimodais, e Amazon Bedrock para analisar e compreender automaticamente conteúdo de vídeo através de agentes especializados trabalhando em coordenação. A demonstração da solução usa Amazon SageMaker AI para guiar através do código.

    Llama 4: Janelas de contexto de 1 milhão de tokens e além

    Llama 4 é a mais recente família de modelos de linguagem grandes (LLMs) da Meta, se destacando por suas capacidades de janela de contexto e inteligência multimodal. Ambos os modelos utilizam arquitetura de mistura de especialistas (MoE) para eficiência, foram projetados para entradas multimodais e são otimizados para alimentar sistemas agenticos e fluxos de trabalho complexos.

    A variante principal, Llama 4 Scout, suporta uma janela de contexto de 10 milhões de tokens — uma primeira na indústria — permitindo que o modelo processe e reflita sobre grandes volumes de dados em um único prompt. Isso viabiliza aplicações como resumir bibliotecas inteiras de livros, analisar bases de código massivas, conduzir pesquisas abrangentes em milhares de documentos e manter contexto de conversa profundo e persistente em interações prolongadas.

    A variante Llama 4 Maverick oferece também uma janela de 1 milhão de tokens, adequada para tarefas exigentes de linguagem, visão e análise entre documentos. Essas janelas de contexto ultralong abrem novas possibilidades para sumarização avançada, retenção de memória e fluxos de trabalho complexos e multietapas.

    Nome do Modelo Janela de Contexto Capacidades e Casos de Uso
    Llama 4 Scout 10M tokens (até 3,5M no Amazon Bedrock) Processamento ultralong de documentos, ingestão de livros ou bases de código completas, sumarização em larga escala, memória de diálogo extensiva, pesquisa avançada
    Llama 4 Maverick 1M tokens Tarefas multimodais com contexto grande, compreensão avançada de documentos e imagens, análise de código, Q&A abrangente, sumarização robusta

    Arquitetura da solução: orquestração inteligente de agentes

    A solução demonstra como construir um fluxo de trabalho multi-agente de processamento de vídeos usando a integração incorporada do Strands Agents com Amazon Web Services (AWS) e a infraestrutura de IA gerenciada do Amazon Bedrock. Embora o foco seja principalmente em agentes especializados para análise de vídeo, as práticas de criação de fluxos multi-agente podem ser aplicadas para construir soluções adaptáveis e automatizadas em nível empresarial.

    Para escalabilidade, essa abordagem se estende naturalmente para lidar com cargas de trabalho maiores e mais diversas — desde processamento de streams de vídeo de milhões de dispositivos conectados em cidades inteligentes até automação industrial para manutenção preditiva através de análise contínua de vídeo e dados de sensores, sistemas de vigilância em tempo real em múltiplas localidades ou empresas de mídia gerenciando grandes bibliotecas para indexação e recuperação de conteúdo.

    Seis agentes especializados trabalhando em tandem

    O fluxo de trabalho implementa seis agentes especializados. Cada um desempenha um papel específico, passando sua saída para o próximo agente completar tarefas multietapas. Isso é conduzido através da mesma análise de uma arquitetura de pesquisa profunda, onde existe um agente orquestrador que coordena o processo dos outros agentes trabalhando juntos. Esse conceito em Strands Agents é chamado Agents as Tools (Agentes como Ferramentas).

    Os agentes especializados são:

    • Llama4_coordinator_agent: Tem acesso aos outros agentes e inicia o processo desde o agente de extração de frames até geração de resumo.
    • s3_frame_extraction_agent: Usa a biblioteca OpenCV para extrair frames significativos de vídeos, lidando com a complexidade de operações com arquivos de vídeo.
    • s3_visual_analysis_agent: Possui ferramentas necessárias para processar os frames analisando cada imagem e armazenando como arquivo JSON no bucket Amazon Simple Storage Service (Amazon S3).
    • retrieve_json_agent: Recupera a análise dos frames em forma de arquivo JSON.
    • c_temporal_analysis_agent: Agente de IA especializado em sequências temporais em frames de vídeo, analisando imagens cronologicamente.
    • summary_generation_agent: Especializado em criar resumo da análise temporal das imagens.
    Fluxo de orquestração multi-agente — fonte: Aws

    Modularização através do padrão Agents as Tools

    O processo começa com o agente orquestrador, implementado usando Llama 4 da Meta, que coordena comunicação e delegação de tarefas entre agentes especializados. Esse agente central inicia e monitora cada passo do pipeline de processamento de vídeo. Usando o padrão Agents as Tools em Strands Agents, cada agente especializado é encapsulado como uma função chamável (ferramenta), permitindo comunicação inter-agente perfeita e orquestração modular. Esse padrão de delegação hierárquica reflete como equipes humanas colaborativas funcionam.

    Os benefícios dessa abordagem incluem:

    • Customização: O prompt do sistema de cada agente pode ser ajustado independentemente para desempenho ótimo em sua tarefa especializada.
    • Separação de responsabilidades: Agentes focam no que fazem melhor, tornando o sistema mais direto de desenvolver e manter.
    • Flexibilidade de fluxo: O agente coordenador pode orquestrar componentes em diferentes sequências para vários casos de uso.
    • Escalabilidade: Componentes podem ser otimizados individualmente baseado em seus requisitos de desempenho específicos.
    • Extensibilidade: Novas capacidades podem ser adicionadas introduzindo novos agentes especializados sem desestabilizar existentes.

    Fluxo de operação: da extração ao resumo

    O agente coordenador inicia acionando o agente de extração de frames. Esse agente especializado possui as ferramentas necessárias para extrair frames-chave do vídeo de entrada usando OpenCV, fazer upload dos frames para Amazon S3 e identificar o caminho da pasta a passar para o agente de análise visual.

    Após os frames serem armazenados no Amazon S3, o agente de análise visual tem acesso a ferramentas que listam os frames da pasta S3, usam Meta’s Llama no Amazon Bedrock para processar as imagens e fazem upload da análise como arquivo JSON para Amazon S3.

    O arquivo JSON é então recuperado por um agente especializado que processa e extrai o texto da análise. Essa saída é então alimentada ao agente de análise temporal para ganhar consciência temporal das sequências nos frames de vídeo. Após a análise temporal ser gerada, o agente de geração de resumo é acionado para fornecer o resumo final.

    Implementação prática: começando com a solução

    Pré-requisitos e configuração

    Para executar a solução, você precisa de:

    Implantação com Gradio

    Para implantar o aplicativo de processamento de vídeo usando Gradio:

    • Abra sua interface de linha de comando Python3
    • Execute: python3 gradio_app.py
    • Acesse o link hospedado gerado no terminal
    • Faça upload de seu arquivo de vídeo e selecione Executar

    Execução no Jupyter Notebook

    Após importar as bibliotecas necessárias, você precisa fazer upload manual de seu vídeo para seu bucket S3. O código fornecido no repositório guia através desse processo. Após o vídeo ser carregado, inicie o fluxo de trabalho do agente instanciando um novo agente com histórico de conversa fresco:

    agent = new_llama4_coordinator_agent()
    video_instruction = f"Process a video from {s3_video_uri}. Use tools in this order: run_frame_extraction, run_visual_analysis, retrieve_json_from_s3, run_temporal_reasoning, run_summary_generation, upload_analysis_results"
    response = agent(video_instruction)
    print(response)

    Exemplo de saída: análise de conteúdo de vídeo

    Quando processado através da solução, um vídeo de exemplo produz análise estruturada em múltiplas camadas:

    O que acontece no vídeo: O vídeo segue personagens navegando através de uma série de eventos, começando de comportamento cauteloso em um cenário natural, buscando ajuda ou comunicação, participação em discussão crucial, e finalmente tomando ação com o grupo.

    Sequência cronológica de eventos: A sequência começa com cautela perto de um cenário natural, seguida de aproximação de um grupo, participação em discussão significativa, e conclui com o grupo tomando ação juntos.

    Elementos visuais-chave: Incluem postura inicial cautelosa, interação com outros personagens, discussões e cenas de ação final, destacando progressão de solitude para ação coletiva.

    Narrativa geral: O arco segue jornada de cautela e busca por ajuda para participação em discussão crucial e finalmente ação com um grupo, sugerindo progressão, planejamento e ação coletiva.

    Limpeza e próximos passos

    Para evitar incorrer em cobranças futuras desnecessárias, limpe os recursos criados. Acesse AWS Management Console, navegue para Amazon S3, encontre seu bucket Amazon SageMaker, selecione os arquivos de vídeo carregados e delete-os. Para parar e remover o notebook SageMaker, acesse Amazon SageMaker AI no AWS Management Console, escolha Notebook instances, selecione seu notebook e delete após parar.

    Conclusão: arquitetura robusta para IA autônoma

    Combinar o SDK Strands Agents com modelos Llama 4 da Meta e infraestrutura Amazon Bedrock viabiliza a construção de fluxos de trabalho avançados de processamento de vídeo multi-agente. Através de agentes altamente especializados que comunicam e colaboram utilizando o padrão Agents as Tools, desenvolvedores conseguem modularizar tarefas complexas como extração de frames, análise visual, raciocínio temporal e sumarização.

    Essa separação de responsabilidades aprimora manutenibilidade, customização e escalabilidade enquanto permite integração perfeita entre serviços AWS. Desenvolvedores são encorajados a explorar e estender essa arquitetura adicionando novos agentes especializados e adaptando fluxos para casos de uso diversos — de cidades inteligentes e automação industrial até gestão de conteúdo em mídia.

    Para começar, visite o repositório oficial GitHub repository for the Meta-Llama-on-AWS agents project para exemplos de código e instruções de implementação. Para insights mais profundos sobre construção com Strands Agents, explore a Strands Agents documentation, que oferece uma abordagem code-first para integração de agentes modulares. Para contexto mais amplo sobre arquiteturas de IA multi-agente e orquestração, posts do blog AWS sobre agent interoperability (interoperabilidade de agentes) e autonomous agent frameworks (frameworks de agentes autônomos) fornecem orientação valiosa moldando o futuro de sistemas inteligentes.

    Fonte

    Using Strands Agents to create a multi-agent solution with Meta’s Llama 4 and Amazon Bedrock (https://aws.amazon.com/blogs/machine-learning/using-strands-agents-to-create-a-multi-agent-solution-with-metas-llama-4-and-amazon-bedrock/)

  • Agentes que Aprendem com Experiências: Memória Episódica do Amazon Bedrock AgentCore

    A Limitação de Agentes sem Memória de Experiência

    A maioria dos agentes de IA atuais funciona de forma reativa: conseguem acessar fatos e conhecimentos disponíveis no momento da interação, mas não conseguem lembrar de como resolveram problemas similares anteriormente ou por que certas abordagens funcionaram ou falharam. Essa limitação impede que os agentes aprendam e evoluam continuamente ao longo do tempo.

    A Amazon Bedrock AgentCore apresenta uma solução para esse desafio através da memória episódica. Enquanto memória semântica ajuda um agente a lembrar o que ele sabe, a memória episódica documenta como ele chegou a essa conclusão: qual era o objetivo, quais foram os passos de raciocínio, que ações foram tomadas, quais foram os resultados e que reflexões surgiram do processo.

    Ao converter cada interação em um episódio estruturado, é possível que agentes recuperem conhecimento e interpretem e apliquem raciocínios anteriores de forma mais efetiva. Isso permite que os agentes se adaptem entre sessões, evitem repetir erros e desenvolvam sua estratégia de planejamento gradualmente.

    O Que é a Memória Episódica

    O Amazon Bedrock AgentCore Memory é um serviço gerenciado pela AWS que ajuda desenvolvedores a criar agentes de IA conscientes do contexto através de capacidades de memória de curto prazo e memória inteligente de longo prazo. Para aprofundamento técnico, existem recursos como Amazon Bedrock AgentCore Memory: Building context-aware agents e Building smarter AI agents: AgentCore long-term memory deep dive.

    Desafios Principais na Construção de Memória Episódica

    Implementar um sistema efetivo de memória episódica para agentes requer resolver diversos desafios técnicos:

    Manutenção de Coerência Temporal e Causal

    Os episódios precisam preservar a sequência e o fluxo de causa e efeito dos passos de raciocínio, ações e resultados. Dessa forma, o agente consegue compreender como suas decisões evoluíram e por que chegou a determinadas conclusões.

    Detecção e Segmentação de Múltiplos Objetivos

    Frequentemente uma sessão envolve objetivos que se sobrepõem ou mudam durante a interação. O sistema de memória episódica precisa identificar e separar esses objetivos para evitar misturar raciocínios não relacionados.

    Aprendizado a Partir da Experiência

    Cada episódio deve ser avaliado quanto ao sucesso ou fracasso. A reflexão deve então comparar episódios similares do passado para identificar padrões generalizáveis e princípios, permitindo que o agente adapte esses conhecimentos a novos objetivos sem simplesmente reproduzir trajetórias anteriores.

    Como a Memória Episódica Funciona

    Quando uma aplicação com agentes envia eventos conversacionais para o AgentCore Memory, as interações brutas são transformadas em registros ricos de memória episódica através de um processo inteligente de extração e reflexão.

    O Módulo de Extração de Episódios

    O módulo de extração transforma dados brutos de interação entre usuário e agente em episódios estruturados e significativos. O processo segue uma abordagem em dois estágios.

    O primeiro estágio realiza processamento no nível de “turnos” conversacionais. Cada troca entre usuário e agente é identificada, segmentada e transformada em resumos estruturados que capturam:

    • Situação do turno: descrição breve das circunstâncias e contexto em que o assistente está respondendo, incluindo o contexto imediato, os objetivos mais amplos do usuário e histórico relevante de interações anteriores
    • Intenção do turno: qual é o propósito específico e objetivo principal do assistente naquele momento
    • Ação do turno: registro detalhado dos passos concretos tomados, quais ferramentas específicas foram utilizadas, que argumentos ou parâmetros foram fornecidos e como o assistente converteu a intenção em ações executáveis
    • Pensamento do turno: o raciocínio por trás das decisões do assistente, explicando o “porquê” da seleção de ferramentas e da abordagem adotada
    • Avaliação do turno: avaliação honesta sobre se o assistente alcançou seu objetivo declarado naquele turno específico
    • Avaliação do objetivo: perspectiva mais ampla sobre se o objetivo geral do usuário está sendo satisfeito ou progredindo em direção à conclusão

    Após processar e estruturar turnos individuais, o sistema segue para o estágio de extração de episódio quando o usuário completa seu objetivo ou quando a interação termina. Isso permite capturar a jornada completa do usuário, pois o objetivo geralmente se estende por múltiplos turnos e dados isolados de turnos individuais não conseguem comunicar se o objetivo geral foi alcançado ou qual era a estratégia holística.

    Neste estágio, turnos sequencialmente relacionados são sintetizados em memórias episódicas coerentes que capturam jornadas completas do usuário, da solicitação inicial até a resolução final. Cada episódio registra:

    • Situação do episódio: as circunstâncias mais amplas que originaram a necessidade do usuário de assistência
    • Intenção do episódio: articulação clara do que o usuário ultimamente queria alcançar
    • Avaliação de sucesso: avaliação definitiva sobre se a conversa alcançou seu propósito pretendido
    • Justificativa da avaliação: raciocínio concreto para avaliações de sucesso ou fracasso, fundamentado em momentos específicos da conversa
    • Insights do episódio: conhecimentos capturando abordagens comprovadas como efetivas e identificando armadilhas a evitar

    O Módulo de Reflexão

    O módulo de reflexão habilita a capacidade central da memória episódica: aprender a partir de experiências passadas e gerar conhecimentos que melhoram o desempenho futuro. Aqui, aprendizados de episódios individuais evoluem para conhecimento generalizável que pode orientar agentes em cenários diversos.

    O módulo opera através de reflexão entre episódios. Quando novos episódios são processados, o sistema realiza as seguintes ações:

    • Utilizando a intenção do usuário como chave semântica, o sistema identifica episódios históricos bem-sucedidos e relevantes que compartilham objetivos, contextos ou domínios de problemas similares
    • O sistema analisa padrões entre o episódio principal e episódios relevantes, buscando conhecimentos transferíveis sobre quais abordagens funcionam consistentemente em diferentes contextos
    • O conhecimento de reflexão existente é revisado e aprimorado com novos conhecimentos ou expandido com padrões inteiramente novos descobertos através da análise entre episódios

    Cada registro de memória de reflexão contém:

    • Caso de uso: quando e onde o conhecimento se aplica, incluindo objetivos de usuário relevantes e condições de acionamento
    • Sugestões (insights): orientação acionável cobrindo estratégias de seleção de ferramentas, abordagens efetivas e armadilhas a evitar
    • Pontuação de confiança: score de 0,1 até 1,0 indicando quão bem o conhecimento se generaliza em diferentes cenários

    Episódios vs. Reflexões: Quando Usar Cada Um

    Episódios fornecem agentes com exemplos concretos de como problemas similares foram resolvidos antes, funcionando como estudos de caso que mostram as ferramentas específicas utilizadas, o raciocínio aplicado e os resultados alcançados, incluindo sucessos e fracassos. Isso cria um framework de aprendizagem onde agentes podem seguir estratégias comprovadas e evitar erros documentados.

    Reflexões extraem padrões de múltiplos episódios para fornecer conhecimentos estratégicos. Em vez de casos individuais, elas revelam quais ferramentas funcionam melhor, quais abordagens de tomada de decisão têm sucesso e quais fatores impulsionam resultados. Esses princípios destilados dão orientação de nível superior para agentes navegarem cenários complexos.

    Configurações Personalizadas

    Embora as estratégias de memória integradas cubram casos de uso comuns, muitos domínios requerem abordagens customizadas para processamento de memória. O sistema suporta customizações através de prompts personalizados que estendem a lógica integrada:

    • Prompts personalizados: focam em critérios e lógica, permitindo que desenvolvedores definam critérios de extração, regras de consolidação, resolução de conflitos e geração de insights
    • Modelo personalizado: o AgentCore Memory suporta seleção de modelo personalizado para operações de extração, consolidação e reflexão, ajudando desenvolvedores a balancear precisão e latência
    • Namespaces: fornecem organização hierárquica para episódios e reflexões, permitindo acesso aos conhecimentos do agente em diferentes níveis de granularidade

    Resultados de Desempenho

    A AWS avaliou a memória episódica do Bedrock AgentCore em benchmarks de conclusão de objetivos do mundo real nos domínios de varejo e companhias aéreas, baseados em τ2-bench. Os benchmarks contêm tarefas que espelham cenários reais de atendimento ao cliente onde agentes precisam ajudar usuários a alcançar objetivos específicos.

    Foram comparadas três configurações diferentes: agente sem interação com o componente de memória (baseline), agentes com exemplos de aprendizagem em contexto (episódios como exemplos), e agentes com reflexão como orientação.

    Os resultados demonstraram melhorias claras em ambos os domínios. No domínio de varejo, reflexão entre episódios melhorou a taxa de sucesso em 11,4% (Pass^1) e 13,6% (Pass^3) comparado ao baseline. No domínio de companhias aéreas, episódios como exemplos alcançaram o melhor Pass^3 com 43,0%.

    Esses resultados indicam que diferentes estratégias de recuperação de memória são mais adequadas para diferentes características de tarefa. Reflexões generalizadas são particularmente valiosas para cenários de atendimento ao cliente abertos e diversos, enquanto exemplos passo-a-passo concretos ajudam agentes a navegar fluxos de trabalho estruturados de forma confiável.

    Melhores Práticas para Memória Episódica

    Quando Usar Memória Episódica

    Memória episódica entrega o maior valor quando você alinha o tipo correto de memória com a necessidade atual. É ideal para tarefas complexas com múltiplos passos onde contexto importa significativamente, como depuração de código, planejamento de viagens e análise de dados. Também é particularmente valiosa para fluxos de trabalho repetitivos onde aprender de tentativas anteriores pode dramaticamente melhorar resultados e para problemas específicos do domínio onde expertise acumulada faz diferença real.

    Contudo, memória episódica nem sempre é a escolha certa. Você pode prescindir dela para perguntas simples e pontuais como consultas de clima ou fatos básicos que não requerem raciocínio ou contexto. Conversas de atendimento ao cliente simples, perguntas e respostas básicas ou chats casuais não se beneficiam dos recursos avançados que memória episódica oferece.

    O verdadeiro benefício de memória episódica se observa ao longo do tempo. Para tarefas curtas, um resumo de sessão fornece informação suficiente. Contudo, para tarefas complexas e fluxos de trabalho repetitivos, memória episódica ajuda agentes a construir sobre experiências passadas e continuamente melhorar seu desempenho.

    Escolhendo Entre Episódios e Reflexões

    Episódios funcionam melhor quando você está enfrentando problemas específicos similares e precisa de orientação clara. Se está depurando um componente React que não renderiza, episódios podem mostrar exatamente como problemas similares foram corrigidos antes, incluindo ferramentas específicas, processo de pensamento e resultados.

    Reflexões funcionam melhor quando você precisa de orientação estratégica em contextos mais amplos em vez de soluções passo-a-passo específicas. Use reflexões quando está enfrentando um novo tipo de problema e precisa compreender princípios gerais ou quando está tomando decisões de alto nível sobre seleção de ferramentas e qual método seguir.

    Conclusão

    Memória episódica preenche uma lacuna crítica nas capacidades atuais de agentes. Ao armazenar caminhos completos de raciocínio e aprender com resultados, agentes conseguem evitar repetir erros e construir sobre estratégias bem-sucedidas. Memória episódica complementa o framework de memória completo do Amazon Bedrock AgentCore junto com memória de sumarização, semântica e de preferência. Cada uma serve um propósito específico: sumarização gerencia extensão de contexto, memória semântica armazena fatos, memória de preferência lida com personalização e memória episódica captura experiência.

    Para aprender mais, consulte a estratégia de memória episódica, como recuperar episódios para melhorar desempenho de agentes e os exemplos do AgentCore Memory no GitHub.

    Fonte

    Build agents to learn from experiences using Amazon Bedrock AgentCore episodic memory (https://aws.amazon.com/blogs/machine-learning/build-agents-to-learn-from-experiences-using-amazon-bedrock-agentcore-episodic-memory/)

  • AWS Glue Agora Disponível na Região da Ásia-Pacífico (Nova Zelândia)

    AWS Glue Chega à Nova Zelândia

    A AWS anunciou a disponibilidade do AWS Glue na região da Ásia-Pacífico (Nova Zelândia), expandindo as opções de infraestrutura para clientes que operam na Oceania. Essa expansão regional permite que organizações processem suas cargas de trabalho de Extração, Transformação e Carregamento de Dados (ETL — Extract, Transform and Load) mais próximas às suas fontes de dados, reduzindo latência e facilitando a conformidade com requisitos de residência de dados.

    O Que é o AWS Glue

    O AWS Glue é um serviço de integração de dados serverless que simplifica tarefas complexas de preparação e combinação de dados. A plataforma foi desenvolvida para tornar a descoberta de dados, sua preparação e integração processos mais acessíveis e eficientes, reduzindo o tempo entre a concepção e a execução de pipelines de análise.

    Interfaces Flexíveis para Diferentes Perfis

    Um dos diferenciais do AWS Glue é oferecer duas abordagens complementares para o desenvolvimento de pipelines de dados: uma interface visual, adequada para profissionais que preferem uma abordagem sem código, e interfaces baseadas em código, para times técnicas que demandam maior flexibilidade e controle. Essa combinação permite que equipes com diferentes níveis de experiência trabalhem com integração de dados de forma produtiva.

    Benefícios da Expansão Regional

    Ao disponibilizar o AWS Glue na Nova Zelândia, a AWS oferece a clientes da região a possibilidade de manter seus dados e processamento em proximidade geográfica com suas operações. Isso é particularmente relevante para organizações que lidam com grandes volumes de dados e necessitam minimizar latência, além daquelas sujeitas a regulamentações que exigem que dados permaneçam em determinadas regiões geográficas.

    Próximos Passos

    Organizações interessadas em migrar ou iniciar novos projetos de integração de dados na Ásia-Pacífico (Nova Zelândia) podem consultar a página do produto AWS Glue para conhecer melhor suas capacidades. A documentação oficial contém guias detalhados sobre implementação. Para visualizar todas as regiões onde o AWS Glue está disponível, consulte a tabela de regiões AWS.

    Fonte

    AWS Glue is now available in Asia Pacific (New Zealand) Region (https://aws.amazon.com/about-aws/whats-new/2026/01/aws-glue-available-new-zealand-region)

  • Relatórios SOC 1, 2 e 3 do Fall 2025 disponíveis com 185 serviços cobertos

    Novos Relatórios de Conformidade Disponíveis

    A Amazon Web Services (AWS) disponibilizou os relatórios de Controles e Conformidade do Sistema e da Organização (SOC) 1, 2 e 3 referentes ao período Fall 2025. Esses relatórios cobrem 185 serviços diferentes ao longo de um período de 12 meses, compreendendo o intervalo de 1º de outubro de 2024 a 30 de setembro de 2025, oferecendo aos clientes um ano completo de garantia de conformidade.

    A publicação desses relatórios reafirma o compromisso contínuo da AWS em atender às expectativas cada vez mais rigorosas impostas aos provedores de serviços em nuvem. Para as organizações brasileiras que utilizam plataforma, isso significa ter acesso a documentação técnica que atesta o cumprimento de padrões internacionais de segurança e governança.

    Como Acessar os Relatórios

    Relatórios SOC 1 e 2

    Os relatórios SOC 1 e 2 do Fall 2025 podem ser baixados através do AWS Artifact no AWS Management Console. O AWS Artifact funciona como um portal de autoatendimento que oferece acesso sob demanda aos relatórios de conformidade da AWS. Para aprofundar-se no uso dessa ferramenta, você pode consultar o guia de introdução ao AWS Artifact.

    Relatório SOC 3

    O relatório SOC 3 encontra-se disponível na página de conformidade SOC da AWS. Diferentemente dos relatórios SOC 1 e 2, que são restritos, o SOC 3 é um relatório público que pode ser compartilhado amplamente dentro de uma organização.

    Expansão Contínua de Serviços em Conformidade

    A AWS mantém um esforço constante para incorporar novos serviços ao escopo de seus programas de conformidade, facilitando que os clientes atendam aos seus requisitos arquiteturais e regulatórios. É possível consultar a lista atualizada de todos os serviços cobertos pelos relatórios na página de serviços em conformidade.

    Suporte e Recursos Adicionais

    Clientes da AWS que possuam dúvidas ou feedback relacionados à conformidade SOC podem entrar em contato com seu time de contas AWS. Para explorar mais sobre os programas de conformidade e segurança oferecidos pela plataforma, recomenda-se consultar a seção dedicada aos programas de conformidade da AWS.

    A AWS valoriza feedback e questões da comunidade. Dúvidas adicionais podem ser direcionadas à equipe de conformidade através da página de contato.

    Fonte

    Fall 2025 SOC 1, 2, and 3 reports are now available with 185 services in scope (https://aws.amazon.com/blogs/security/fall-2025-soc-1-2-and-3-reports-are-now-available-with-185-services-in-scope/)

  • SageMaker Unified Studio agora suporta subscrições entre regiões e baseadas em funções IAM

    Novidades no SageMaker Unified Studio

    A AWS anunciou a adição de duas capacidades importantes ao SageMaker Unified Studio: suporte a subscrições entre regiões e acesso baseado em funções IAM (Gerenciamento de Identidade e Acesso). Essas funcionalidades reforçam a proposta da plataforma de facilitar acesso a dados e melhorar a governança entre equipes distribuídas.

    Subscrições entre Regiões

    O SageMaker Unified Studio agora permite que você se inscreva em tabelas e visões do AWS Glue e Amazon Redshift publicadas em uma região diferente daquela onde seu projeto está localizado. Essa funcionalidade é especialmente valiosa para organizações com infraestrutura distribuída em múltiplas regiões da AWS.

    A principal vantagem dessa capacidade é a quebra de silos de dados. Equipes espalhadas geograficamente ou divididas por linha de negócio conseguem acessar ativos de dados curados sem precisar replicar informações manualmente. Isso acelera fluxos de análise e reduz redundância operacional.

    Subscrições Baseadas em Funções IAM

    A segunda novidade elimina um intermediário importante no fluxo de acesso a dados. Você pode agora descobrir e solicitar acesso a dados através de subscrições baseadas em funções IAM, sem necessidade de um projeto do SageMaker Unified Studio. Isso simplifica o processo removendo uma camada administrativa e permitindo acesso direto aos dados através de papéis (roles) IAM.

    Essa abordagem oferece maior flexibilidade: colaboradores conseguem solicitar acesso aos dados que precisam sem depender de estrutura de projeto, tornando o processo mais ágil e alinhado com práticas modernas de governança de identidade.

    Como Começar

    Para utilizar subscrições entre regiões, você pode acessar o SageMaker Unified Studio diretamente ou usar a Amazon DataZone API, SDK ou AWS CLI (Interface de Linha de Comando). As subscrições baseadas em funções IAM estão disponíveis via Amazon DataZone API e SDK.

    Essas novas APIs para subscrições entre regiões e acesso baseado em IAM estão disponíveis em todas as regiões da AWS onde o SageMaker Unified Studio é suportado. Para informações técnicas mais detalhadas, consulte o guia de usuário do SageMaker Unified Studio.

    Implicações para Governança de Dados

    Essas atualizações reforçam a abordagem da AWS em facilitar colaboração intra-organizacional mantendo controle granular de acesso. Organizações brasileiras que trabalham com múltiplas equipes em diferentes regiões encontram nessas funcionalidades uma forma de centralizar ativos de dados sem sacrificar autonomia de acesso.

    Fonte

    SageMaker Unified Studio adds support for cross-Region and IAM role-based subscriptions (https://aws.amazon.com/about-aws/whats-new/2026/01/sagemaker-unified-studio-adds-cross-region-iam/)

  • Amazon Quick Suite: Ampliação de Capacidade, Ingestão Mais Rápida e Suporte Expandido de Tipos de Dados para Conjuntos SPICE

    Evolução do Mecanismo SPICE para Análises Avançadas

    A AWS anunciou importantes melhorias na plataforma Amazon Quick Suite, especificamente no mecanismo SPICE (Spice on Premise In-Memory Calculation Engine), que agora oferece maior escalabilidade, ingestão acelerada de dados e suporte expandido para diversos tipos de informações. Essas aprimoramentos foram projetados para potencializar cargas de trabalho de análise avançada e impulsionadas por inteligência artificial, permitindo que os clientes trabalhem com conjuntos de dados mais complexos e volumosos.

    Principais Melhorias Implementadas

    Capacidade de Armazenamento Ampliada

    Um dos destaques da atualização é a duplicação do limite de tamanho dos conjuntos de dados SPICE. Utilizando a nova experiência de preparação de dados, os clientes podem agora carregar até 2TB de dados por conjunto, dobrando o limite anterior de 1TB. Essa expansão de capacidade permite trabalhar com volumes de informações significativamente maiores mantendo o desempenho robusto do sistema.

    Otimização de Velocidade de Ingestão

    Além do aumento de capacidade, a AWS otimizou ainda mais a velocidade de ingestão de dados no SPICE. O mecanismo agora oferece processamento mais acelerado durante o carregamento e atualização de informações, reduzindo substancialmente o tempo necessário para transformar dados brutos em insights acionáveis. Essa melhoria contribui para diminuir a latência entre a disponibilidade dos dados e sua utilização em análises.

    Suporte Expandido para Tipos de Dados

    O SPICE também recebeu expansões significativas em seu suporte a diferentes tipos de dados. O limite de comprimento de strings aumentou de 2.000 para 64.000 caracteres Unicode, possibilitando o trabalho com textos mais extensos e complexos. Além disso, o intervalo de datas e timestamps suportadas foi estendido, agora cobrindo desde o ano 0001 até os registros contemporâneos, oferecendo maior flexibilidade para análises históricas e multitemporais.

    Benefícios para Analíticas Complexas

    Conforme os clientes da Quick Suite incorporam cargas de trabalho cada vez mais sofisticadas, ricas em complexidade e orientadas por inteligência artificial ao SPICE, essas melhorias possibilitam cobertura de dados mais abrangente, integração mais veloz de novas fontes de informação e capacidades analíticas mais potentes, sem comprometer a performance geral do sistema.

    Disponibilidade e Próximos Passos

    O novo limite de tamanho para conjuntos de dados SPICE está disponível nas edições Enterprise do Amazon Quick Sight em todas as regiões suportadas pela plataforma. Para detalhes técnicos adicionais sobre as configurações, limites e melhores práticas, recomenda-se consultar a documentação técnica completa. Para verificar a disponibilidade em sua região específica, consulte a lista de regiões suportadas pelo Amazon Quick Sight.

    Fonte

    Amazon Quick Suite launches expanded size, faster ingestion, and richer data type support for SPICE datasets (https://aws.amazon.com/about-aws/whats-new/2026/01/amazon-quick-suite-launches-expanded-spice)

  • Recuperação Multimodal no Amazon Bedrock Knowledge Bases: Unificando Busca por Texto, Imagem, Áudio e Vídeo

    Recuperação Multimodal para Aplicações de Inteligência Artificial

    A AWS anunciou a disponibilidade geral de recuperação multimodal para Amazon Bedrock Knowledge Bases. Esta capacidade adiciona suporte nativo para conteúdo em vídeo e áudio, complementando texto e imagens. Com isso, organizações podem construir aplicações de Geração Aumentada por Recuperação (RAG — Retrieval Augmented Generation) que buscam e recuperam informações em múltiplos formatos dentro de um serviço totalmente gerenciado.

    Empresas modernas armazenam informações valiosas em diversos formatos. Documentação de produtos inclui diagramas e capturas de tela, materiais de treinamento contêm vídeos instrucionais, e insights de clientes são capturados em gravações de reuniões. Até agora, desenvolver aplicações de inteligência artificial capazes de buscar efetivamente nestes diferentes tipos de conteúdo exigia infraestrutura customizada complexa e esforço significativo de engenharia.

    Fonte: Aws

    O Desafio Anterior e a Solução Multimodal

    Anteriormente, o Bedrock Knowledge Bases utilizava modelos de embedding baseados em texto para recuperação. Embora suportasse documentos de texto e imagens, estas últimas precisavam ser processadas usando modelos de fundação ou Bedrock Data Automation para gerar descrições textuais — uma abordagem centrada em texto que perdia contexto visual e impedia capacidades de busca visual. Vídeo e áudio exigiam pipelines customizados de pré-processamento externo.

    Agora, com embeddings multimodais, o recuperador suporta nativamente texto, imagens, áudio e vídeo dentro de um único modelo de embedding. Com a recuperação multimodal no Bedrock Knowledge Bases, você pode ingerir, indexar e recuperar informações de texto, imagens, vídeo e áudio usando um fluxo de trabalho unificado. O conteúdo é codificado usando embeddings multimodais que preservam contexto visual e de áudio, permitindo que suas aplicações encontrem informações relevantes entre tipos de mídia. Você pode até fazer buscas usando uma imagem para encontrar conteúdo visualmente similar ou localizar cenas específicas em vídeos.

    Dois Caminhos para Processamento Multimodal

    Amazon Nova Multimodal Embeddings

    Amazon Nova Multimodal Embeddings é o primeiro modelo de embedding unificado que codifica texto, documentos, imagens, vídeo e áudio em um único espaço vetorial compartilhado. O conteúdo é processado nativamente sem conversão para texto. O modelo suporta até 8.172 tokens para texto e 30 segundos para segmentos de vídeo/áudio, trabalha com mais de 200 idiomas e oferece quatro dimensões de embedding (sendo 3.072 a padrão, com opções de 1.024, 384 e 256) para balancear precisão e eficiência.

    Fonte: Aws

    O Bedrock Knowledge Bases segmenta vídeo e áudio automaticamente em chunks configuráveis (5-30 segundos), com cada segmento sendo incorporado independentemente. Para conteúdo em vídeo, os embeddings Nova capturam elementos visuais — cenas, objetos, movimento e ações — assim como características de áudio como música, sons e ruído ambiente. Para vídeos onde o diálogo falado é importante, você pode usar Bedrock Data Automation para extrair transcrições junto com descrições visuais. Para arquivos de áudio isolados, Nova processa características acústicas como música, sons ambientais e padrões de áudio.

    A capacidade cross-modal habilita casos de uso como descrever uma cena visual em texto para recuperar vídeos correspondentes, fazer upload de uma imagem de referência para encontrar produtos similares, ou localizar ações específicas em gravações — tudo sem descrições textuais pré-existentes. Este formato é ideal para catálogos de produtos, busca visual, vídeos de manufatura, filmagens esportivas, câmeras de segurança e cenários onde o conteúdo visual direciona o caso de uso.

    Amazon Bedrock Data Automation

    Bedrock Data Automation adota uma abordagem diferente, convertendo conteúdo multimídia em representações textuais ricas antes da incorporação. Para imagens, gera descrições detalhadas incluindo objetos, cenas, texto dentro de imagens e relações espaciais. Para vídeo, produz resumos cena a cena, identifica elementos visuais-chave e extrai texto na tela. Para áudio e vídeo com fala, Bedrock Data Automation fornece transcrições precisas com timestamps e identificação do locutor, junto com resumos de segmentos que capturam pontos-chave discutidos.

    Fonte: Aws

    Uma vez convertido em texto, esse conteúdo é segmentado e incorporado usando modelos de embedding de texto como Amazon Titan Text Embeddings ou Amazon Nova Multimodal Embeddings. Esta abordagem centrada em texto possibilita respostas altamente precisas a perguntas sobre conteúdo falado — quando usuários perguntam sobre declarações específicas feitas em uma reunião ou tópicos discutidos em um podcast, o sistema busca em transcrições precisas em vez de embeddings de áudio. Isto a torna particularmente valiosa para cenários de conformidade onde você precisa de citações exatas e registros verbatim para trilhas de auditoria, análise de reuniões, mineração de chamadas de suporte ao cliente e casos de uso onde você precisa recuperar e verificar informações faladas específicas. Este formato é melhor para reuniões, webinars, entrevistas, podcasts, vídeos de treinamento, chamadas de suporte e cenários que exigem recuperação precisa de declarações ou discussões específicas.

    Caso de Uso: Busca Visual de Produtos em E-commerce

    Bases de conhecimento multimodal podem ser usadas em aplicações que variam desde experiências de cliente aprimoradas e treinamento de colaboradores até operações de manutenção e análise legal. A busca tradicional em e-commerce depende de consultas em texto, exigindo que clientes articulem o que estão procurando com as palavras-chave corretas. Isto falha quando viram um produto em outro lugar, têm uma foto de algo que gostam ou querem encontrar itens similares aos que aparecem em um vídeo.

    Agora, clientes podem buscar seu catálogo de produtos usando descrições textuais, fazer upload de uma imagem de um item que fotografaram ou referenciar uma cena de um vídeo para encontrar produtos correspondentes. O sistema recupera itens visualmente similares comparando a representação incorporada da consulta — seja texto, imagem ou vídeo — contra os embeddings multimodais do seu inventário de produtos.

    Para este cenário, Amazon Nova Multimodal Embeddings é a escolha ideal. A descoberta de produtos é fundamentalmente visual — clientes se preocupam com cores, estilos, formas e detalhes visuais. Ao codificar suas imagens e vídeos de produtos no espaço vetorial unificado de Nova, o sistema compara com base em similaridade visual sem depender de descrições em texto que possam perder características visuais sutis.

    Configurando uma Base de Conhecimento Multimodal

    Pré-requisitos

    Antes de começar, certifique-se de que você possui:

    Passo 1: Criar a Base de Conhecimento

    Comece abrindo o console Amazon Bedrock e criando uma nova base de conhecimento. Forneça um nome descritivo para sua base de conhecimento e selecione seu tipo de fonte de dados — neste caso, Amazon S3 onde suas imagens e vídeos de produtos estão armazenados.

    Passo 2: Conectar a Fonte de Dados

    Conecte seu bucket S3 contendo imagens e vídeos de produtos. Para a estratégia de análise, selecione o analisador padrão do Amazon Bedrock. Como você está usando Amazon Nova Multimodal Embeddings, as imagens e vídeos são processados nativamente e incorporados diretamente no espaço vetorial unificado, preservando suas características visuais sem conversão para texto.

    Fonte: Aws

    Passo 3: Configurar Armazenamento e Processamento

    Selecione Amazon Nova Multimodal Embeddings como seu modelo de embedding. Este modelo de embedding unificado codifica tanto suas imagens de produtos quanto as consultas de clientes no mesmo espaço vetorial, habilitando recuperação cross-modal onde consultas em texto podem recuperar imagens e consultas com imagens podem encontrar produtos visualmente similares. Para este exemplo, use Amazon S3 Vectors como armazenamento vetorial (você poderia opcionalmente usar outros armazenamentos disponíveis), que fornece armazenamento com custo-efetivo e durável otimizado para conjuntos de dados vetoriais em larga escala mantendo desempenho de consulta em sub-segundo. Você também precisa configurar o destino de armazenamento multimodal especificando um local S3.

    Fonte: Aws

    Passo 4: Revisar e Criar

    Revise suas configurações incluindo detalhes da base de conhecimento, configuração da fonte de dados e seleção do modelo de embedding — usando Amazon Nova Multimodal Embeddings v1 com 3.072 dimensões vetoriais (dimensões maiores fornecem representações mais ricas; você pode usar dimensões menores como 1.024, 384 ou 256 para otimizar armazenamento e custo) — e configuração do armazenamento vetorial. Uma vez que tudo está correto, crie sua base de conhecimento.

    Passo 5: Iniciar Ingestão de Dados

    Uma vez criada, inicie o processo de sincronização para ingerir seu catálogo de produtos. A base de conhecimento processa cada imagem e vídeo, gera embeddings e os armazena no banco de dados vetorial gerenciado. Monitore o status da sincronização para confirmar que os documentos foram indexados com sucesso.

    Fonte: Aws

    Passo 6: Testar com Consultas em Texto

    Com sua base de conhecimento pronta, teste-a usando uma consulta em texto no console. Busque por descrições de produtos como “Uma capa de telefone metálica” para verificar que a recuperação baseada em texto funciona corretamente em seu catálogo.

    Fonte: Aws

    Passo 7: Testar Busca Visual

    Agora vem a parte poderosa — busca visual. Faça upload de uma imagem de referência de um produto que você quer encontrar. Por exemplo, imagine que você viu uma capa de telefone em outro site e quer encontrar itens similares em seu catálogo. Simplesmente faça upload da imagem sem prompt de texto adicional. A base de conhecimento multimodal extrai características visuais de sua imagem carregada e recupera produtos visualmente similares de seu catálogo. Como você pode ver nos resultados, o sistema retorna capas de telefone com padrões de design, cores ou características visuais similares. Note os metadados associados a cada segmento. Os campos de timestamp indicam a localização temporal exata deste segmento dentro do vídeo de origem. Ao construir aplicações programaticamente, você pode usar esses timestamps para extrair e exibir o segmento de vídeo específico que correspondeu à consulta, habilitando recursos como “pule para o momento relevante” ou geração de clipes diretamente de seus vídeos de origem.

    Fonte: Aws
    Fonte: Aws

    Passo 8: Testar com Bedrock Data Automation

    Agora veja como seria se você tivesse configurado análise Bedrock Data Automation durante a configuração da fonte de dados. Note a seção de transcrição nos detalhes da origem. Para cada segmento de vídeo recuperado, Bedrock Data Automation gera automaticamente uma descrição textual detalhada — neste exemplo, descrevendo o acabamento rose gold metálico do smartphone, iluminação de estúdio e características visuais. Você obtém tanto a correspondência de similaridades visuais dos embeddings multimodais quanto descrições de produtos detalhadas que podem responder perguntas específicas sobre características, cores, materiais e outros atributos visíveis no vídeo.

    Fonte: Aws

    Limpeza de Recursos

    Para limpar seus recursos, siga estes passos começando com a exclusão da base de conhecimento:

    • No console Amazon Bedrock, escolha Knowledge Bases
    • Selecione sua Base de Conhecimento e anote tanto o nome da função de serviço IAM quanto o ARN do índice S3 Vector
    • Escolha Deletar e confirme

    Para deletar S3 Vector como armazenamento vetorial, use os seguintes comandos AWS Command Line Interface (AWS CLI):

    aws s3vectors delete-index --vector-bucket-name YOUR_VECTOR_BUCKET_NAME --index-name YOUR_INDEX_NAME --region YOUR_REGION
    aws s3vectors delete-vector-bucket --vector-bucket-name YOUR_VECTOR_BUCKET_NAME --region YOUR_REGION
    • No console IAM, encontre a função anotada anteriormente
    • Selecione e delete a função
    • No console Amazon S3, encontre seu bucket S3
    • Selecione e delete os arquivos que você carregou para este tutorial

    Próximas Etapas

    Comece com recuperação multimodal hoje. Explore a documentação e revise a documentação de Amazon Bedrock Knowledge Bases e o Amazon Nova User Guide para detalhes técnicos adicionais.

    Experimente com exemplos de código no repositório de amostras do Amazon Bedrock para notebooks práticos demonstrando recuperação multimodal.

    Leia o anúncio de Amazon Nova Multimodal Embeddings para insights técnicos mais profundos. O repositório GitHub fornece um notebook guiado que você pode seguir para implementar este exemplo em sua conta.

    Conclusão

    A recuperação multimodal para Amazon Bedrock Knowledge Bases remove a complexidade de construir aplicações RAG que abrangem texto, imagens, vídeo e áudio. Com suporte nativo para conteúdo em vídeo e áudio, você pode agora construir bases de conhecimento abrangentes que desbloqueiam insights de seus dados corporativos — não apenas documentos de texto.

    A escolha entre Amazon Nova Multimodal Embeddings e Bedrock Data Automation oferece flexibilidade para otimizar seu caso de uso específico. O espaço vetorial unificado de Nova habilita recuperação cross-modal para casos de uso orientados visualmente, enquanto a abordagem centrada em texto de Bedrock Data Automation oferece recuperação precisa baseada em transcrição para conteúdo com fala intensa. Ambas as abordagens se integram perfeitamente no mesmo fluxo de trabalho totalmente gerenciado, eliminando a necessidade por pipelines de pré-processamento customizados.

    Fonte

    Introducing multimodal retrieval for Amazon Bedrock Knowledge Bases (https://aws.amazon.com/blogs/machine-learning/introducing-multimodal-retrieval-for-amazon-bedrock-knowledge-bases/)

  • Implantando Agentes de IA no Amazon Bedrock AgentCore com GitHub Actions

    Automatizando a Implantação de Agentes de IA com Segurança Empresarial

    A AWS anunciou recentemente o Amazon Bedrock AgentCore, um serviço versátil que permite aos desenvolvedores criar e gerenciar agentes de IA de forma integrada, trabalhando com diferentes frameworks e modelos, seja em ambientes hospedados na própria Amazon Bedrock ou em outras infraestruturas. Mais especificamente, o AgentCore Runtime fornece um ambiente de hospedagem seguro, sem servidor e otimizado para implantar e executar agentes de IA ou ferramentas customizadas.

    Uma das características principais do AgentCore Runtime é sua flexibilidade de framework. O serviço funciona perfeitamente com plataformas populares como LangGraph, Strands e CrewAI, permitindo que desenvolvedores implantem seus agentes com escalabilidade automática e segurança integrada. O grande diferencial está em como simplifica a complexidade operacional enquanto mantém controles rigorosos de segurança.

    Imagem original — fonte: Aws

    Este artigo demonstra como usar um fluxo de trabalho do GitHub Actions para automatizar a implantação de agentes no AgentCore Runtime. Essa abordagem oferece uma solução escalável com controles de segurança em nível empresarial, fornecendo automação completa de integração e entrega contínua (CI/CD). Implementando um pipeline abrangente, é possível habilitar a implantação contínua de agentes seguindo as melhores práticas da AWS, incluindo autenticação com OpenID Connect (OIDC), controles de acesso com privilégio mínimo e separação de ambientes. A solução facilita atualizações eficientes para agentes existentes e integra verificações contínuas de segurança com validações rigorosas de qualidade de código. O resultado é uma estratégia de implantação robusta que minimiza complexidade operacional, aprimora a segurança e acelera o desenvolvimento de agentes de IA em ambientes corporativos.

    Capacidades do Amazon Bedrock AgentCore Runtime

    O AgentCore Runtime é o serviço ideal para implantações de agentes em produção, apresentando um conjunto robusto de funcionalidades:

    • Oferece um ambiente independente de framework para executar agentes
    • Funciona com modelos de linguagem grande (LLMs) como os oferecidos pela Amazon Bedrock e Anthropic Claude
    • Fornece isolamento de sessão, executando cada sessão do usuário em uma microVM dedicada com recursos isolados de CPU, memória e sistema de arquivos
    • Suporta tanto interações em tempo real quanto cargas de trabalho de longa duração, com duração até 8 horas
    • Oferece capacidades integradas de autenticação e observabilidade

    Visão Geral da Solução

    Foi desenvolvido um pipeline CI/CD abrangente com GitHub Actions que simplifica a implantação de agentes em conformidade com padrões de segurança. O pipeline está disponível como uma solução pronta para uso que se integra perfeitamente aos fluxos de trabalho de desenvolvimento existentes.

    A solução compreende os seguintes componentes-chave:

    • GitHub Actions – Uma ferramenta de orquestração de fluxo de trabalho para hospedar o pipeline
    • Amazon Bedrock AgentCore Runtime – Um serviço da AWS para hospedar e executar os agentes implantados
    • Amazon Elastic Container Registry (Amazon ECR) – Um serviço da AWS para armazenar, gerenciar e implantar imagens de contêiner para agentes
    • Amazon Inspector – Um serviço da AWS para realizar verificação avançada e contínua de vulnerabilidades em imagens de contêiner
    • IAM OIDC identity provider (Provedor de identidade OIDC do IAM) – Um serviço de autenticação federada que estabelece confiança entre GitHub e AWS, permitindo que GitHub Actions implante na AWS sem manter segredos e credenciais AWS

    O fluxo de dados da arquitetura segue os seguintes passos:

    1. Um desenvolvedor confirma mudanças de código de seu repositório local para o repositório do GitHub. Nesta solução, o GitHub Action é acionado manualmente, mas pode ser automatizado.
    2. O GitHub Action inicia o estágio de build.
    3. O OIDC do GitHub usa tokens para autenticar com a AWS e acessar recursos.
    4. GitHub Actions invoca o comando para construir e enviar a imagem de contêiner do agente para Amazon ECR diretamente do Dockerfile.
    5. AWS Inspector dispara uma verificação de segurança avançada quando a imagem é carregada.
    6. Uma instância do AgentCore Runtime é criada usando a imagem de contêiner.
    7. O agente pode consultar o modelo Amazon Bedrock e invocar ferramentas de acordo com sua configuração.

    Pré-requisitos

    Antes de usar o pipeline CI/CD seguro para implantar agentes no AgentCore Runtime, verifique se você possui os seguintes pré-requisitos:

    Configuração Inicial

    Baixando o Código-Fonte

    Clone o repositório de código-fonte:

    git clone https://github.com/aws-samples/sample-bedrock-agentcore-runtime-cicd.git

    A pasta do repositório contém a seguinte estrutura:

    bedrock-agentcore-runtime-cicd/
    ├── .github/
    │ └── workflows/
    │ └── deploy-agentcore.yml # arquivo contém o conjunto de ações para construir e implantar o agente no AgentCore Runtime
    │ └── test-agent.yml # após a implantação, este arquivo é usado para testar agente via manual workflow dispatch
    ├── agents/
    │ ├── strands_agent.py # usa BedrockAgentCoreApp que cria um agente de IA usando o framework Strands com Claude como modelo subjacente
    │ ├── requirements.txt # contém dependências
    ├── scripts
    │ ├── create_iam_role.py # função IAM necessária para Bedrock AgentCore Runtime
    │ ├── deploy_agent.py # implanta um agente customizado na plataforma AgentCore Runtime da AWS Bedrock
    │ └── setup_oidc.py # configuração OIDC para autenticação e autorização do GitHub para acessar conta AWS
    │ └── cleanup_ecr.py # mantém 9 imagens recentes no registro ECR, pode ser customizado
    │ └── create_guardrail.py # configura guardrail mínimo para filtragem de conteúdo, pode ser customizado conforme necessário
    │ └── test_agent.py # contém casos de teste
    └── Dockerfile # contém instruções para construir a imagem Docker
    └── README.md

    Criando o Código do Agente

    Crie seu agente com o framework de sua escolha usando o toolkit AgentCore Runtime. O toolkit usa BedrockAgentCoreApp para criar uma aplicação que fornece uma forma padronizada de empacotar código de agente de IA em um contêiner que pode ser executado na infraestrutura gerenciada do AgentCore Runtime. Também usa app.entrypoint, um decorador Python que marca uma função como o ponto de entrada principal. Quando o agente Amazon Bedrock recebe uma solicitação de API recebida, esta função recebe e processa a solicitação do usuário.

    Neste exemplo de código de agente, quando alguém chama seu agente Amazon Bedrock usando uma API, o AgentCore Runtime chamará automaticamente a função strands_agent_bedrock(payload). Neste artigo, o arquivo agents/strands_agent.py é usado para criar um agente usando o framework Strands Agents:

    """
    This module defines a conversational AI agent that can perform calculations using the Strands framework.
    """
    from bedrock_agentcore.runtime import BedrockAgentCoreApp
    from strands import Agent
    from strands.models import BedrockModel
    from strands_tools import calculator
    
    # Initialize the Bedrock AgentCore application
    app = BedrockAgentCoreApp()
    
    # Configure the Claude model for the agent with guardrail
    model_id = "us.anthropic.claude-sonnet-4-20250514-v1:0"
    
    # Load guardrail ID if available
    guardrail_config = None
    try:
        with open("guardrail_id.txt", "r", encoding="utf-8") as f:
            guardrail_id = f.read().strip()
            if guardrail_id:
                guardrail_config = {
                    "guardrailIdentifier": guardrail_id,
                    "guardrailVersion": "1",
                }
            print(f"Loaded guardrail: {guardrail_id}")
    except FileNotFoundError:
        print("No guardrail file found - running without guardrail")
    
    model = BedrockModel(model_id=model_id, guardrail=guardrail_config)
    
    # Create the agent with tools and system prompt
    agent = Agent(
        model=model,
        tools=[calculator],
        system_prompt="You're a helpful assistant. You can do simple math calculation.",
    )
    
    @app.entrypoint
    def strands_agent_bedrock(payload):
        """
        Main entrypoint for the Bedrock AgentCore Runtime.
        This function is called by AWS Bedrock AgentCore when the agent receives a request.
        It processes the user input and returns the agent's response.
        
        Args:
            payload (dict): Request payload containing user input
            Expected format: {"prompt": "user question"}
        
        Returns:
            str: The agent's text response to the user's prompt
        """
        # Extract the user's prompt from the payload
        user_input = payload.get("prompt")
        
        # Process the input through the agent (handles tool selection and model inference)
        response = agent(user_input)
        
        # Extract and return the text content from the response
        return response.message["content"][0]["text"]
    
    if __name__ == "__main__":
        # Run the application locally for testing
        # In production, this is handled by Bedrock AgentCore Runtime
        app.run()

    Configurando Secrets do GitHub

    O fluxo de trabalho do GitHub Actions deve acessar recursos em sua conta AWS. Neste artigo, usa-se um provedor de identidade IAM OpenID Connect (OIDC) e funções IAM com políticas IAM para acessar recursos AWS. O OIDC permite que seus fluxos de trabalho GitHub Actions acessem recursos na AWS sem precisar armazenar credenciais AWS como segredos GitHub de longa duração. Essas credenciais são armazenadas como segredos GitHub no repositório GitHub, em Configurações na opção Secrets. Para mais informações, consulte Using secrets in GitHub Actions.

    Criando Funções e Políticas IAM

    Para executar agentes ou ferramentas no AgentCore Runtime, você precisa de uma função de execução IAM. Para informações sobre como criar uma função IAM, consulte IAM role creation. Neste artigo, criamos a política de confiança e função de execução necessárias para o AgentCore Runtime. Veja IAM Permissions for AgentCore Runtime para mais detalhes.

    A seguir está o código da política de confiança do AgentCore Runtime:

    {
      "Version": "2012-10-17",
      "Statement": [
        {
          "Sid": "AssumeRolePolicy",
          "Effect": "Allow",
          "Principal": {
            "Service": "bedrock-agentcore.amazonaws.com"
          },
          "Action": "sts:AssumeRole",
          "Condition": {
            "StringEquals": {
              "aws:SourceAccount": "accountId"
            },
            "ArnLike": {
              "aws:SourceArn": "arn:aws:bedrock-agentcore:region:accountId:*"
            }
          }
        }
      ]
    }

    A seguir está o código da função de execução do AgentCore Runtime:

    {
      "Version": "2012-10-17",
      "Statement": [
        {
          "Effect": "Allow",
          "Action": [
            "bedrock:InvokeModel",
            "bedrock:InvokeModelWithResponseStream",
            "bedrock:Converse",
            "bedrock:ConverseStream"
          ],
          "Resource": [
            "arn:aws:bedrock:*::foundation-model/us.anthropic.claude-sonnet-4-*",
            "arn:aws:bedrock:*::foundation-model/anthropic.claude-*",
            "arn:aws:bedrock:*:*:inference-profile/us.anthropic.claude-sonnet-4-*",
            "arn:aws:bedrock:*:*:inference-profile/anthropic.claude-*"
          ]
        },
        {
          "Effect": "Allow",
          "Action": [
            "ecr:GetAuthorizationToken",
            "ecr:BatchCheckLayerAvailability",
            "ecr:GetDownloadUrlForLayer",
            "ecr:BatchGetImage"
          ],
          "Resource": "arn:aws:ecr:::repository/bedrock-agentcore-*"
        },
        {
          "Effect": "Allow",
          "Action": [
            "logs:CreateLogGroup",
            "logs:CreateLogStream",
            "logs:PutLogEvents"
          ],
          "Resource": "arn:aws:logs:*:*:*"
        }
      ]
    }

    Executando o Pipeline

    O pipeline pode ser acionado alterando código na pasta de agentes ou manualmente usando a opção de workflow dispatch. Isso pode ser alterado de acordo com a estratégia de branching de sua organização. Atualize o código em .github/workflows/deploy-agentcore.yml para alterar esse comportamento de gatilho.

    Imagem original — fonte: Aws

    O fluxo de trabalho realiza as seguintes etapas:

    • Usa o Ubuntu Github Runner padrão para as tarefas fornecidas no pipeline
    • Instala as dependências necessárias mencionadas no arquivo requirements.txt
    • Constrói a imagem Docker e a implanta no repositório ECR
    • A imagem é verificada com Amazon Inspector para identificar potenciais vulnerabilidades
    • AgentCore Runtime implanta o agente como um endpoint
    • O fluxo de trabalho testa o endpoint do agente para verificar funcionalidade

    Testando o Agente

    Após o agente ser implantado, verifica-se sua funcionalidade acionando o fluxo de trabalho Test Agent manualmente via opção de workflow dispatch.

    Imagem original — fonte: Aws

    Versionamento e Endpoints do AgentCore Runtime

    A AWS Bedrock AgentCore implementa versionamento automático para AgentCore Runtime e permite gerenciar diferentes configurações usando endpoints. Endpoints fornecem uma forma de referenciar versões específicas do AgentCore Runtime. Para mais detalhes e código de exemplo, consulte AgentCore Runtime versioning and endpoints.

    Limpeza de Recursos

    Para evitar incorrer em cobranças futuras, conclua os seguintes passos:

    • Exclua as imagens do ECR do console Amazon ECR criadas por meio da implantação usando GitHub Actions
    • Exclua o agente implantado no AgentCore Runtime

    Conclusão

    Este artigo demonstrou uma abordagem abrangente para usar GitHub Actions visando uma implantação mais segura e escalável de agentes de IA no AgentCore Runtime. A solução oferece um ambiente robusto, automatizado e controlado para aplicações de IA generativa, abordando desafios críticos de implantação empresarial ao automatizar gerenciamento de dependências, implementar verificações contínuas de qualidade de código, realizar verificação abrangente de vulnerabilidades e facilitar processos de implantação consistentes.

    Ao abstrair complexidades de infraestrutura, este pipeline ajuda desenvolvedores a concentrar-se na lógica e funcionalidade do agente, enquanto oferece uma abordagem independente de framework que suporta gerenciamento integrado de múltiplos agentes de IA em escala. À medida que os agentes de IA continuam transformando capacidades empresariais, esta solução representa um passo significativo na simplificação do desenvolvimento e gerenciamento operacional de agentes de IA, oferecendo um mecanismo de implantação padronizado, seguro e eficiente para aplicações modernas de IA generativa.

    Como próximo passo, você pode usar Amazon Q para aprimorar e customizar inteligentemente seu pipeline de implantação de agentes de IA, transformando seus processos CI/CD com automação avançada e consciente de contexto.

    Fonte

    Deploy AI agents on Amazon Bedrock AgentCore using GitHub Actions (https://aws.amazon.com/blogs/machine-learning/deploy-ai-agents-on-amazon-bedrock-agentcore-using-github-actions/)