Blog

  • Criando uma Solução de Processamento Inteligente de Documentos com Amazon Bedrock Data Automation

    Transformando o Processamento de Documentos com IA

    O processamento inteligente de documentos (Intelligent Document Processing — IDP) representa uma mudança fundamental em como as organizações lidam com dados não estruturados. Faturas, contratos, relatórios e outros documentos comerciais contêm informações valiosas que, tradicionalmente, exigem extração manual. A AWS demonstra uma abordagem programática e automatizada para essa tarefa, combinando tecnologias recentes em inteligência artificial.

    A solução apresentada integra o Strands SDK, Amazon Bedrock AgentCore, Amazon Bedrock Knowledge Base e Bedrock Data Automation (BDA). Todo o processo é documentado através de um Jupyter notebook que permite aos usuários fazer upload de documentos multimodais e extrair conhecimentos aplicando BDA como analisador de conteúdo, recuperando trechos relevantes e enriquecendo prompts enviados para modelos de linguagem.

    Um caso de uso prático demonstra a extração de contexto educacional relevante a partir de relatórios públicos — especificamente, dados de distritos escolares públicos obtidos do relatório nacional da educação americana.

    Imagem original — fonte: Aws

    Capacidades e Componentes Principais

    Amazon Bedrock Data Automation

    Amazon Bedrock Data Automation pode funcionar de duas formas: como recurso independente ou como analisador integrado ao configurar uma base de conhecimento para fluxos de Geração Aumentada por Recuperação (Retrieval-Augmented Generation — RAG). O serviço processa conteúdo multimodal não estruturado — documentos, imagens, vídeos e áudio — gerando insights automaticamente e de forma econômica.

    A combinação de BDA com fluxos RAG permite construir sistemas que entendem contextos complexos armazenando representações vetoriais dos documentos. Para isso, a solução utiliza Amazon OpenSearch Service como repositório das embeddings vetoriais necessárias.

    Amazon Bedrock AgentCore

    Amazon Bedrock AgentCore é um serviço totalmente gerenciado que permite construir e configurar agentes autônomos. Desenvolvedores podem criar e implantar agentes usando frameworks populares e um conjunto diverso de modelos — incluindo opções da Amazon Bedrock, Anthropic, Google e OpenAI — sem necessidade de gerenciar infraestrutura subjacente ou escrever código customizado.

    Na solução apresentada, o AgentCore utiliza BDA através de ferramentas para executar RAG multimodal aplicado ao processamento inteligente de documentos.

    Strands Agents SDK

    O Strands Agents SDK é um toolkit sofisticado de código aberto que revoluciona o desenvolvimento de agentes de inteligência artificial por meio de uma abordagem orientada por modelo. Desenvolvedores criam um agente Strands com um prompt (que define o comportamento do agente) e uma lista de ferramentas disponíveis. Um modelo de linguagem grande (Large Language Model — LLM) realiza o raciocínio, decidindo autonomamente quais ações executar e quando utilizar cada ferramenta com base no contexto e na tarefa solicitada.

    Esse fluxo de trabalho suporta sistemas complexos, minimizando o código necessário para orquestrar colaboração entre múltiplos agentes. O Strands SDK é responsável pela criação do agente e definição das ferramentas necessárias para realizar o processamento inteligente de documentos.

    Pré-requisitos e Arquitetura

    Preparação Inicial

    Antes de começar, certifique-se de que você possui:

    Componentes da Arquitetura

    A solução integra os seguintes serviços AWS:

    • Amazon S3 para armazenamento e upload de documentos
    • Bedrock Knowledge Bases para converter objetos armazenados no S3 em um fluxo preparado para RAG
    • Amazon OpenSearch para embeddings vetoriais
    • Amazon Bedrock AgentCore para orquestrar o fluxo de processamento inteligente
    • Strands Agent SDK como framework de código aberto para definir ferramentas de IDP
    • Bedrock Data Automation para extrair insights estruturados dos documentos

    Implementação Passo a Passo

    Configuração da AWS CLI

    O primeiro passo é configurar a AWS Command Line Interface (AWS CLI) com suas credenciais e região. Execute o comando:

    aws configure

    Antes de prosseguir, verifique a disponibilidade regional e preços de AWS Bedrock Data Automation for region availability and pricing.

    Clonagem do Repositório

    Faça o clone do repositório de exemplo localmente:

    git clone https://github.com/aws-samples/sample-for-amazon-bda-agents
    cd sample-for-amazon-bda-agents

    Abra o Jupyter notebook chamado bedrock-data-automation-with-agents.ipynb.

    Fluxo de Trabalho com Bedrock Data Automation e AgentCore

    O notebook demonstra como criar uma solução de processamento inteligente usando BDA com o Amazon Bedrock AgentCore Runtime. Em vez de usar agentes tradicionais do Bedrock, a solução implanta um agente Strands através do AgentCore, fornecendo capacidades de nível empresarial com flexibilidade de framework.

    O processo segue estas etapas:

    • Importar bibliotecas e configurar capacidades do AgentCore
    • Criar a Knowledge Base para Amazon Bedrock com BDA
    • Fazer upload do dataset de relatórios acadêmicos para Amazon S3
    • Implantar o agente Strands usando o AgentCore Runtime
    • Testar o agente hospedado no AgentCore
    • Limpar todos os recursos após conclusão

    Instruções mais específicas estão incluídas no Jupyter notebook fornecido.

    Fluxo de Dados da Solução

    O fluxo geral da solução funciona da seguinte forma:

    • Usuários fazem upload de documentos relevantes para Amazon S3
    • A Knowledge Base do Amazon Bedrock processa a fonte de dados no S3 utilizando Bedrock Data Automation como analisador
    • Chunks de documentos são armazenados como embeddings vetoriais em Amazon OpenSearch
    • Um agente Strands implantado no Amazon Bedrock AgentCore Runtime executa RAG para responder perguntas do usuário
    • O usuário final recebe a resposta consultada

    Considerações de Segurança

    A implementação inclui várias salvaguardas de segurança:

    • Tratamento seguro de upload de arquivos
    • Controle de acesso baseado em papéis (Identity and Access Management — IAM)
    • Validação de entrada e tratamento de erros

    É importante notar que essa implementação destina-se a fins de demonstração. Antes de implantar em um ambiente de produção, controles de segurança adicionais, testes abrangentes e revisões arquiteturais são necessários.

    Benefícios e Casos de Uso

    Essa solução é particularmente valiosa para:

    • Fluxos de trabalho automatizados de processamento de documentos
    • Análise inteligente de documentos em datasets de grande escala
    • Sistemas de perguntas e respostas baseados em conteúdo de documentos
    • Processamento de conteúdo multimodal

    Recursos Adicionais

    Para saber mais sobre cada componente:

    Conclusão

    A solução apresentada demonstra como o Amazon Bedrock AgentCore e suas capacidades podem ser usados para construir aplicações robustas de processamento inteligente de documentos. Ao criar agentes Strands que suportam Amazon Bedrock Data Automation, é possível desenvolver aplicações poderosas que compreendem e interagem com conteúdo multimodal de documentos utilizando ferramentas especializadas.

    Com Amazon Bedrock Data Automation, as organizações podem aprimorar significativamente a experiência RAG para formatos de dados mais complexos — incluindo documentos visualmente ricos, imagens, áudios e vídeos — sem necessidade de construir infraestrutura customizada.

    Fonte

    Programmatically creating an IDP solution with Amazon Bedrock Data Automation (https://aws.amazon.com/blogs/machine-learning/programmatically-creating-an-idp-solution-with-amazon-bedrock-data-automation/)

  • Agentes de IA automatizam processos em navegadores para gestão de fluxos empresariais

    O desafio da automação em ambientes heterogêneos

    As organizações empresariais dependem cada vez mais de aplicações web para processos críticos de negócios, mas grande parte desses fluxos permanece intensiva em trabalho manual. Essa realidade cria ineficiências operacionais significativas e riscos de conformidade que prejudicam a produtividade.

    Um problema recorrente em muitas empresas é que profissionais de conhecimento precisam navegar entre oito a doze aplicações web diferentes durante seus fluxos de trabalho padrão, alternando constantemente entre contextos e transferindo informações manualmente entre sistemas. Tarefas de entrada e validação de dados consomem aproximadamente 25 a 30% do tempo de trabalho, enquanto processos manuais criam gargalos de conformidade e desafios de consistência de dados entre sistemas que exigem verificação humana contínua.

    As abordagens tradicionais de automação apresentam limitações significativas. A automação robótica de processos (RPA) funciona bem para processos estruturados e baseados em regras, mas se torna frágil quando aplicações são atualizadas e exige manutenção contínua. Integrações baseadas em APIs permanecem ideais, mas muitos sistemas legados carecem de capacidades modernas. Plataformas de gerenciamento de processos de negócio oferecem orquestração, mas enfrentam dificuldades com pontos de decisão complexos e interação direta com interfaces web.

    Como resultado, a maioria das empresas opera com abordagens mistas: apenas 30% das tarefas de fluxo de trabalho estão totalmente automatizadas, 50% exigem supervisão humana e 20% permanecem inteiramente manuais.

    Aplicações reais enfrentam complexidade crescente

    Esses desafios se manifestam em fluxos empresariais comuns. A validação de pedidos de compra exige navegação inteligente através de múltiplos sistemas para realizar correspondência tripla entre pedidos, recebimentos e faturas, mantendo trilhas de auditoria. A integração de novos funcionários demanda provisionamento coordenado de acesso entre sistemas de gerenciamento de identidade, gestão de relacionamento com clientes (CRM), planejamento de recursos empresariais (ERP) e plataformas de colaboração, com tomadas de decisão baseadas em papéis. Por fim, o processamento de pedidos de comércio eletrônico precisa processar inteligentemente pedidos através de múltiplos sites de varejistas que carecem de acesso nativo a APIs.

    Agentes de IA como solução transformadora

    Os agentes de inteligência artificial representam um avanço significativo além dessas soluções tradicionais, oferecendo capacidades que navegam inteligentemente por complexidade, adaptam-se a ambientes dinâmicos e reduzem drasticamente a intervenção manual em fluxos de trabalho empresariais.

    A AWS demonstrou como uma plataforma de gestão de pedidos de comércio eletrônico pode automatizar fluxos de processamento de pedidos através de múltiplos sites de varejistas usando agentes de IA, como o Amazon Nova Act e o agente Strands, utilizando a Ferramenta de Navegador do Amazon Bedrock AgentCore em escala.

    Imagem original — fonte: Aws

    Arquitetura do fluxo de automação de comércio eletrônico

    Esse fluxo de trabalho demonstra como agentes de IA podem automatizar inteligentemente o processamento complexo e multietapas de pedidos através de sites de varejistas diversos que carecem de integração nativa via API, combinando navegação adaptativa do navegador com supervisão humana para tratamento de exceções.

    Os seguintes componentes trabalham juntos para permitir processamento de pedidos com alimentação por IA em escala:

    • Tarefas do ECS Fargate executam um backend Python FastAPI em contêiner com frontend React, fornecendo conexões WebSocket para automação de pedidos em tempo real. As tarefas escalam automaticamente conforme a demanda.
    • A aplicação integra-se com o Amazon Bedrock e Amazon Nova Act para automação de pedidos com IA.
    • A Ferramenta AgentCore Browser oferece um ambiente de navegador seguro e isolado para automação web.
    • Um Agente Principal orquestra o Agente Nova Act e a combinação Strands + Playwright para controle inteligente do navegador.

    O fluxo de trabalho de automação de comércio eletrônico representa um desafio empresarial comum onde negócios precisam processar pedidos através de múltiplos sites de varejistas sem acesso nativo a APIs. Esse fluxo demonstra as capacidades completas de automação de navegador com alimentação por IA, desde navegação inicial até tomada de decisão complexa e intervenção com humano no circuito.

    A AWS disponibilizou uma amostra de automação de comércio eletrônico com agentes, que foi disponibilizada como código aberto no repositório aws-samples no GitHub.

    Detalhes do processo de fluxo de trabalho

    Usuários do sistema de gerenciamento de pedidos de comércio eletrônico submetem pedidos de clientes através de uma interface web ou upload de arquivo CSV em lote, incluindo detalhes do produto (URL, tamanho, cor), informações do cliente e endereço de entrega. O sistema atribui níveis de prioridade e enfileira pedidos para processamento.

    Imagem original — fonte: Aws

    Quando um pedido é iniciado, o Amazon Bedrock AgentCore Browser cria uma sessão de navegador isolada com conectividade através do Chrome DevTools Protocol (CDP). A Ferramenta AgentCore Browser oferece um navegador seguro baseado em nuvem que permite ao agente de IA (Amazon Nova Act e agente Strands neste caso) interagir com sites. Ela inclui recursos de segurança como isolamento de sessão, observabilidade integrada através de visualização ao vivo, registro de AWS CloudTrail e capacidades de replay de sessão.

    O sistema recupera credenciais de varejistas do AWS Secrets Manager e gera uma URL de visualização ao vivo usando transmissão Amazon DCV para monitoramento em tempo real.

    Preenchimento de formulários e envio de pedidos

    O preenchimento de formulários representa uma capacidade crítica onde o agente detecta inteligentemente e popula vários tipos de campo em diferentes layouts de checkout de varejistas. O agente de IA visita a página do produto, lida com autenticação se necessária e analisa a página para identificar seletores de tamanho, opções de cor e botões de carrinho. Seleciona opções especificadas, adiciona itens ao carrinho e prossegue para checkout, preenchendo informações de entrega com detecção inteligente de campos em diferentes layouts de varejistas. Se produtos estiverem fora de estoque ou indisponíveis, o agente escala para revisão humana com contexto sobre alternativas.

    A aplicação de amostra emprega duas abordagens distintas dependendo do método de automação. O Amazon Nova Act usa compreensão visual e estrutura do Modelo de Objeto de Documento (DOM) da página web, permitindo que o agente Nova Act receba instruções em linguagem natural como “preencher endereço de entrega” e identifique automaticamente campos de formulário a partir da captura de tela, adaptando-se a diferentes layouts sem seletores predefinidos.

    Imagem original — fonte: Aws

    Em contraste, a combinação Strands + Playwright Model Context Protocol (MCP) usa modelos do Bedrock para analisar a estrutura do Modelo de Objeto de Documento da página, determinar seletores de campo de formulário apropriados, e então o Playwright MCP executa as interações de navegador de baixo nível para popular os campos com dados do cliente. Ambas as abordagens adaptam-se automaticamente a interfaces de checkout diversas de varejistas, eliminando a fragilidade da automação tradicional baseada em seletores.

    Supervisão humana e resolução de problemas

    Quando o sistema encontra CAPTCHAs ou desafios complexos, o agente pausa a automação e notifica operadores através de WebSocket. Os operadores acessam a visualização ao vivo para ver o estado exato do navegador, resolver o problema manualmente e disparar a retomada. O AgentCore Browser permite a tomada de controle do navegador por humano e passagem de controle de volta para o agente. O agente continua do estado atual sem reiniciar todo o processo.

    Observabilidade e escalabilidade

    Durante toda a execução, o sistema captura gravações de sessão armazenadas em S3, capturas de tela em etapas críticas e registros de execução detalhados com timestamps. Os operadores monitoram o progresso através de um painel em tempo real que mostra status do pedido, etapa atual e percentual de progresso.

    Para cenários de alto volume, o processamento em lote suporta execução paralela de múltiplos pedidos com workers configuráveis (1-10), enfileiramento baseado em prioridade e lógica automática de retry para falhas transitórias.

    Conclusão: Um novo paradigma na automação empresarial

    A automação de navegador acionada por agentes de IA representa uma mudança fundamental em como empresas abordam a gestão de fluxos de trabalho. Ao combinar tomada de decisão inteligente, navegação adaptativa e capacidades com humano no circuito, as organizações podem ir além da divisão 30-50-20 da automação tradicional rumo a taxas significativamente mais altas de automação em fluxos complexos entre múltiplos sistemas.

    O exemplo de automação de pedidos de comércio eletrônico demonstra que agentes de IA não substituem a RPA tradicional — eles habilitam automação de fluxos de trabalho previamente considerados demasiado dinâmicos ou complexos para automação, lidando com interfaces de usuário diversas, tomando decisões contextualizadas e mantendo conformidade completa e auditabilidade.

    À medida que empresas enfrentam pressão crescente para melhorar eficiência operacional enquanto gerenciam sistemas legados e integrações complexas, os agentes de IA oferecem um caminho prático adiante. Em vez de investir em reformulações caras de sistemas ou aceitar ineficiências de processos manuais, as organizações podem implantar automação de navegador inteligente que se adapta ao seu cenário de tecnologia existente. O resultado é redução de custos operacionais, tempos de processamento mais rápidos, conformidade melhorada e, mais importante, liberação de profissionais de conhecimento de tarefas repetitivas de entrada de dados e navegação de sistemas — permitindo que se concentrem em atividades de maior valor que geram impacto nos negócios.

    Fonte

    AI agent-driven browser automation for enterprise workflow management (https://aws.amazon.com/blogs/machine-learning/ai-agent-driven-browser-automation-for-enterprise-workflow-management/)

  • Automação inteligente de testes QA usando Amazon Bedrock AgentCore Browser e Amazon Nova Act

    O desafio dos testes de qualidade em desenvolvimento moderno

    A garantia de qualidade (QA) sempre foi fundamental no desenvolvimento de software, mas as metodologias tradicionais de testes não acompanharam a velocidade dos ciclos modernos de desenvolvimento e a complexidade crescente das interfaces de usuário. A maioria das organizações ainda depende de uma abordagem híbrida que combina testes manuais com frameworks de automação baseados em scripts, como Selenium, Cypress e Playwright. Apesar dessa combinação, os times gastam proporções significativas de seu tempo mantendo os testes já existentes em vez de criar novos cenários.

    O problema central reside na fragilidade da automação tradicional. Scripts de teste quebram quando há alterações na interface, exigem conhecimento especializado em programação e frequentemente oferecem cobertura incompleta em diferentes navegadores e dispositivos. Com muitas organizações explorando ativamente fluxos de testes orientados por IA, as abordagens convencionais se mostram insuficientes para os desafios contemporâneos.

    O que muda com automação agentic de testes

    Transformação do paradigma de testes

    A IA agentic marca uma transição importante: afasta os testes QA da automação baseada em regras para sistemas de testes inteligentes e autônomos. Diferentemente da automação convencional, que segue scripts pré-programados, sistemas com IA agentic conseguem observar, aprender, se adaptar e tomar decisões em tempo real.

    As vantagens principais incluem a geração autônoma de testes através da observação da interface do usuário, além da adaptação dinâmica conforme elementos visuais mudam — reduzindo significativamente o overhead de manutenção que consome o tempo dos times de QA. Esses sistemas replicam padrões de interação humana, garantindo que os testes ocorram de uma perspectiva genuinamente realista, não através de caminhos rígidos e pré-definidos.

    Infraestrutura para testes agentic em escala empresarial

    O papel do AgentCore Browser

    Para materializar o potencial dos testes com IA agentic em escala empresarial, as organizações precisam de uma infraestrutura robusta que suporte agentes de testes inteligentes e autônomos. O Amazon Bedrock AgentCore Browser, um serviço integrado ao Amazon Bedrock AgentCore, atende a essa necessidade fornecendo um ambiente de navegador seguro e baseado em nuvem, especialmente projetado para que agentes de IA interajam com websites e aplicações.

    O AgentCore Browser incorpora recursos de segurança essenciais em nível empresarial, como isolamento de sessão, observabilidade integrada através de visualização ao vivo, registro de logs via AWS CloudTrail, e capacidades de reprodução de sessão. Operando dentro de um ambiente containerizado efêmero, cada instância de navegador pode ser encerrada após o uso, proporcionando estados de testes limpos e gerenciamento otimizado de recursos.

    Para operações de QA em grande escala, o AgentCore Browser pode executar múltiplas sessões de navegador simultaneamente, permitindo que as organizações paralelizem testes em diferentes cenários, ambientes e jornadas de usuário de forma concorrente.

    Integração com Amazon Nova Act

    As capacidades de infraestrutura do AgentCore Browser ganham potência real quando combinadas com um SDK agentic como o Amazon Nova Act. O Amazon Nova Act é um serviço AWS que auxilia desenvolvedores a construir, implantar e gerenciar frotas de agentes de IA confiáveis para automatizar fluxos de trabalho de interface de usuário em produção.

    Com esse SDK, os desenvolvedores conseguem dividir fluxos de teste complexos em comandos menores e confiáveis, mantendo a capacidade de chamar APIs e realizar manipulação direta do navegador quando necessário. Essa abordagem oferece integração perfeita de código Python ao longo de todo o processo de testes. Os desenvolvedores podem intercalar testes, breakpoints e assertions diretamente dentro do fluxo agentic, proporcionando controle e capacidades de debug sem precedentes.

    A combinação da infraestrutura em nuvem do AgentCore Browser com o SDK agentic do Amazon Nova Act cria um ecossistema abrangente de testes que transforma a forma como as organizações abordam garantia de qualidade.

    Um caso prático: testes em aplicação de varejo

    Estrutura da implementação

    Para ilustrar essa transformação na prática, considere o desenvolvimento de uma nova aplicação para uma empresa de varejo. Um aplicativo web de varejo mock foi criado para demonstrar o processo de testes com IA agentic, assumindo que a aplicação está hospedada em infraestrutura AWS dentro de uma rede corporativa privada durante fases de desenvolvimento e testes.

    Para otimizar o processo de criação de testes, utiliza-se o Kiro, um assistente de codificação alimentado por IA, que gera automaticamente casos de teste de interface observando a base de código da aplicação. O Kiro examina a estrutura da aplicação, analisa padrões de teste existentes e cria casos de teste abrangentes seguindo o formato de schema JSON exigido pelo Amazon Nova Act.

    Ao compreender os recursos da aplicação — incluindo navegação, busca, filtragem e envios de formulários — o Kiro gera etapas de teste detalhadas com ações e resultados esperados que são imediatamente executáveis através do AgentCore Browser. Essa abordagem assistida por IA acelera dramaticamente a criação de testes oferecendo cobertura abrangente.

    Execução e paralelização de testes

    Após os casos de teste serem gerados, eles são colocados no diretório de dados de teste onde o pytest descobre e executa automaticamente. Cada arquivo de teste JSON se torna um teste independente que o pytest pode executar em paralelo. O framework utiliza pytest-xdist para distribuir testes em múltiplos processos worker, utilizando automaticamente recursos disponíveis no sistema para desempenho otimizado.

    Durante a execução, cada teste obtém sua própria sessão isolada do AgentCore Browser através do SDK do Amazon Nova Act. O agente Amazon Nova Act lê as etapas de teste do arquivo JSON e as executa — realizando ações como clicar em botões ou preencher formulários, depois validando que os resultados esperados ocorrem. Essa abordagem orientada por dados significa que times podem criar suites de testes abrangentes simplesmente escrevendo arquivos JSON, sem necessidade de escrever código Python para cada cenário de teste.

    A arquitetura de execução paralela reduz significativamente o tempo de teste. Testes que normalmente rodariam sequencialmente agora podem ser executados simultaneamente em múltiplas sessões de navegador, com pytest gerenciando a distribuição e agregação dos resultados. Um relatório HTML é gerado automaticamente usando pytest-html e o plugin pytest-html-nova-act, fornecendo resultados dos testes, screenshots e logs de execução para visibilidade completa do processo.

    Observabilidade e rastreamento em tempo real

    Uma das capacidades mais poderosas do AgentCore Browser é sua habilidade de executar múltiplas sessões de navegador simultaneamente, permitindo verdadeira execução paralela de testes em escala. Quando pytest distribui testes entre processos worker, cada teste cria sua própria sessão de navegador isolada na nuvem. Isso significa que toda a suite de testes pode executar simultaneamente ao invés de esperar que cada teste se complete sequencialmente.

    O AWS Management Console fornece visibilidade completa sobre essas sessões paralelas. É possível visualizar as sessões de navegador ativas executando simultaneamente, monitorar seu status e rastrear a utilização de recursos em tempo real. Essa observabilidade é crítica para compreender padrões de execução de testes e otimizar a infraestrutura de testes.

    Além de monitorar apenas o status das sessões, o AgentCore Browser oferece recursos de visualização ao vivo e reprodução de sessão para observar exatamente o que o Amazon Nova Act está fazendo durante e após a execução dos testes. Para uma sessão de navegador ativa, é possível abrir a visualização ao vivo e observar o agente interagindo com a aplicação em tempo real — clicando botões, preenchendo formulários, navegando páginas e validando resultados. Quando a reprodução de sessão está habilitada, é possível visualizar os eventos gravados através da reprodução da sessão registrada. Isso permite validar resultados de testes mesmo após a execução se completar. Essas capacidades são inestimáveis para depurar falhas de teste, compreender comportamento de agentes e ganhar confiança no processo automatizado de testes.

    Recursos e próximos passos

    Para instruções completas de implantação e acesso ao código da aplicação de varejo de exemplo, templates do AWS CloudFormation e framework de testes pytest, consulte o repositório GitHub acompanhante. O repositório inclui os componentes necessários para implantar e testar a aplicação em seu próprio ambiente AWS.

    Conclusão

    A automação inteligente de testes QA representa uma evolução significativa nas práticas de garantia de qualidade. Ao combinar infraestrutura robusta em nuvem com agentes de IA autônomos, a AWS demonstra como é possível reduzir drasticamente o tempo de manutenção de testes, aumentar a cobertura de cenários e criar sistemas que se adaptam naturalmente às mudanças nas aplicações. O modelo agentic não elimina a necessidade de engenheiros de QA, mas libera seu tempo valioso para atividades estratégicas enquanto a automação inteligente cuida da execução rotineira de testes.

    Fonte

    Agentic QA automation using Amazon Bedrock AgentCore Browser and Amazon Nova Act (https://aws.amazon.com/blogs/machine-learning/agentic-qa-automation-using-amazon-bedrock-agentcore-browser-and-amazon-nova-act/)

  • Amazon WorkSpaces Secure Browser agora suporta redirecionamento WebAuthn para navegadores Chromium locais

    Autenticação Segura em Ambientes de Desktop Remoto

    A AWS anunciou uma atualização importante no Amazon WorkSpaces Secure Browser: o suporte ao redirecionamento de autenticação web (WebAuthn). Essa nova capacidade permite que usuários autentiquem-se em websites dentro de suas sessões do WorkSpaces Secure Browser utilizando chaves de segurança e autenticadores biométricos locais, sem comprometer a segurança do ambiente remoto.

    O redirecionamento WebAuthn funciona como um intermediário seguro: ao invés de manter credenciais dentro da sessão remota, o sistema permite que os tokens de autenticação sejam transmitidos de forma segura do dispositivo local do usuário para os websites acessados através do navegador seguro.

    Compatibilidade e Dispositivos Suportados

    Navegadores e Requisitos de Sistema

    O recurso está disponível exclusivamente para navegadores baseados em Chromium no dispositivo local do usuário. As versões mínimas necessárias são Google Chrome 136 ou posterior, e Microsoft Edge 137 ou posterior. Navegadores não-Chromium, como Safari e Firefox, não são compatíveis com essa funcionalidade.

    Métodos de Autenticação

    A solução suporta múltiplas formas de autenticação segura:

    • Chaves de segurança FIDO2 (dispositivos físicos)
    • Senhas sem senha (passkeys)
    • Autenticadores de plataforma, como Windows Hello e Touch ID

    Implementação e Configuração

    Passos para Ativação

    Os administradores precisam executar duas etapas para habilitar o redirecionamento WebAuthn. Primeiro, é necessário ativar o recurso nas configurações de portal do Secure Browser. Em segundo lugar, os navegadores locais devem ser configurados através da política WebAuthenticationRemoteDesktopAllowedOrigins.

    Essa configuração garante que os tokens de autenticação sejam transmitidos com segurança do dispositivo local para os websites acessados na sessão do navegador seguro, mantendo a integridade e os benefícios de segurança do ambiente de navegação remoto.

    Disponibilidade Global

    O recurso está disponível sem custos adicionais em todas as regiões onde o Amazon WorkSpaces Secure Browser opera:

    • América do Norte: US East (N. Virginia), US West (Oregon), Canada (Central)
    • Europa: Frankfurt, London, Ireland
    • Ásia-Pacífico: Tokyo, Mumbai, Sydney, Singapore

    Próximos Passos

    Para começar a utilizar o redirecionamento WebAuthn, os administradores devem acessar o console do Amazon WorkSpaces Secure Browser e ativar a funcionalidade nas configurações disponíveis. Para instruções detalhadas de implementação e melhores práticas, a documentação oficial do WebAuthn redirection do Amazon WorkSpaces Secure Browser fornece todas as informações necessárias.

    Fonte

    Amazon WorkSpaces Secure Browser now supports WebAuthn redirection for local Chromium browsers (https://aws.amazon.com/about-aws/whats-new/2025/12/amazon-workspaces-secure-browser-webauthn-redirection-chromium-browsers)

  • NVIDIA Nemotron 3 Nano agora disponível no Amazon Bedrock

    Novo modelo NVIDIA disponível no Amazon Bedrock

    A AWS anunciou o suporte ao NVIDIA Nemotron 3 Nano 30B, o mais recente avanço da NVIDIA em modelagem de linguagem eficiente. Este modelo traz uma combinação interessante de desempenho em raciocínio, suporte nativo para chamadas de ferramentas e processamento de contexto estendido com janela de contexto de 256 mil tokens.

    O que diferencia este modelo é sua arquitetura híbrida de Mistura de Especialistas (Mixture-of-Experts — MoE), projetada para oferecer throughput superior em comparação com seus antecessores, mantendo a profundidade de raciocínio de um modelo maior. Isso o torna particularmente adequado para cargas de trabalho relacionadas a agentes de IA e desenvolvimento de código.

    Capacidades e casos de uso

    O Nemotron 3 Nano foi treinado com técnicas avançadas de aprendizado por reforço e pós-treinamento em múltiplos ambientes em escala, o que resulta em controles explícitos de raciocínio e maior precisão. Esses atributos fazem dele uma opção versátil para:

    • Empresas e startups construindo workflows multi-agentes complexos
    • Ferramentas de produtividade para desenvolvedores
    • Automatização de processos
    • Análise de raciocínio científico e matemático

    Infraestrutura: Project Mantle e distribuição global

    A execução do Nemotron 3 Nano no Amazon Bedrock é possível graças ao Project Mantle, um novo mecanismo de inferência distribuída específico para atender modelos de aprendizado de máquina em larga escala. O Project Mantle simplifica e acelera a integração de novos modelos ao Amazon Bedrock, além de oferecer:

    • Inferência serverless altamente performática com controles sofisticados de qualidade de serviço
    • Quotas padrão de clientes mais altas com gerenciamento automatizado de capacidade e pools unificados
    • Compatibilidade pronta com as especificações de API OpenAI

    O modelo está disponível a partir de hoje em oito regiões da AWS: US East (N. Virginia), US East (Ohio), US West (Oregon), Asia Pacific (Tokyo), Asia Pacific (Mumbai), South America (São Paulo), Europe (London) e Europe (Milan). Suporta tanto endpoints de serviço unificados quanto endpoints compatíveis com a API OpenAI no Amazon Bedrock.

    Próximos passos

    Para começar a usar o Nemotron 3 Nano, você pode acessar o console do Amazon Bedrock ou consultar a documentação do serviço. Desenvolvedores interessados em endpoints compatíveis com a API OpenAI encontram mais detalhes na documentação específica.

    Fonte

    NVIDIA Nemotron 3 Nano now available on Amazon Bedrock (https://aws.amazon.com/about-aws/whats-new/2025/12/nvidia-nemotron-3-nano-amazon-bedrock)

  • AWS AI League: Competição com Agentes Inteligentes e Personalização de Modelos de IA

    Competição como catalisador para inovação em IA

    Construir agentes de IA sofisticados capazes de lidar com tarefas complexas do mundo real representa um desafio significativo para as organizações. Além disso, muitas empresas reconhecem que confiar apenas em grandes modelos de fundação pré-treinados nem sempre é o melhor caminho. Frequentemente, é necessário fazer ajuste fino e customizar modelos menores e mais especializados para obter desempenho superior em casos de uso específicos.

    É nesse contexto que a AWS lançou o programa AWS AI League, uma iniciativa inovadora que ajuda empresas a enfrentar o desafio de construir capacidades avançadas de IA por meio de competições envolventes que impulsionam a inovação em IA com agentes inteligentes e personalização de modelos.

    Em 2025, a primeira competição do programa chamou a atenção de desenvolvedores, cientistas de dados e líderes de negócio em todo o mundo. Profissionais de diferentes organizações se reuniram para resolver problemas urgentes utilizando as mais recentes ferramentas e técnicas de IA. O grande final na AWS re:Invent 2025 foi um espetáculo que demonstrou o engenho e habilidade dos participantes. Equipes multidisciplinares de organizações líderes competiram frente a frente, exibindo sua capacidade de criar prompts efetivos, fazer ajuste fino de modelos e construir agentes de IA poderosos.

    Os campeões da edição 2025 da AWS AI League foram:

    • 1º lugar: Hemanth Vediyera da Cisco
    • 2º lugar: Ross Williams da Aqfer
    • 3º lugar: Deepesh Khanna da Capital One
    Imagem original — fonte: Aws

    Os vencedores dividiram um prêmio de 25 mil dólares. Este artigo explora como o programa AWS AI League funciona como plataforma para empresas organizarem competições internas de IA, permitindo que participantes experimentem conceitos de personalização de modelos e construção de agentes, apliquem esses aprendizados a desafios reais de negócio e apresentem suas soluções inovadoras em um formato dinâmico e envolvente.

    Para começar, visite a página do programa AWS AI League.

    Estrutura do Campeonato AWS AI League

    A experiência AWS AI League começa com um workshop prático de 2 horas conduzido por especialistas da AWS, seguido por experimentação no próprio ritmo do participante. A jornada culmina em um grande finale em formato de competição de game show, onde os participantes apresentam suas criações de IA e soluções para desafios reais de negócio.

    Com base no sucesso do programa 2025, a AWS anunciou o lançamento do Campeonato AWS AI League 2026. Este ano, a competição apresenta dois novos desafios que permitem aos participantes colocar suas habilidades de IA à prova:

    Desafio de IA com Agentes Inteligentes

    O desafio de IA com agentes permite que os participantes construam agentes inteligentes utilizando o Amazon Bedrock AgentCore. Os competidores criam arquiteturas de agentes customizadas para lidar com problemas reais de negócio. Neste desafio, os agentes navegam por um ambiente em forma de labirinto em uma grade, enfrentando vários obstáculos enquanto buscam um baú com tesouro. Esses obstáculos mapeiam para casos de uso do mundo real, testando a capacidade dos agentes de lidar com conteúdo impróprio, executar código, usar navegador web e muito mais.

    Os agentes têm um limite de tempo para atravessar o mapa, coletar pontos e superar os obstáculos antes de alcançar o baú de tesouro. Quanto mais pontos conquistam, maior sua classificação no ranking. Você pode customizar completamente seus agentes usando as primitivas do Amazon Bedrock AgentCore, o que permite escalar e gerenciar agentes em nível de produção de forma mais segura.

    Também é possível selecionar modelos específicos para agentes supervisores e sub-agentes, além de criar ferramentas personalizadas como Bedrock Guardrails, AgentCore Memory e funções AWS Lambda para ajudar seus agentes a navegarem pelos desafios.

    Imagem original — fonte: Aws

    O AWS AI League oferece uma interface completa baseada em web para os usuários construírem suas soluções com agentes inteligentes. Você pode usar essa interface sem código para construir arquiteturas com múltiplos agentes e ferramentas, integrando componentes como Amazon SageMaker Studio CodeEditor para codificação interativa de funções Lambda e ferramentas personalizadas. Isso permite que você desenvolva e customize completamente suas soluções baseadas em agentes dentro do site AWS AI League, sem precisar sair do ambiente.

    Durante toda a competição, os usuários recebem feedback em tempo real sobre o desempenho de seus agentes. Um avaliador baseado em modelo de linguagem grande (LLM) fornece avaliação para ajudar na iteração e melhoria contínua.

    Imagem original — fonte: Aws

    No grande finale, os finalistas sobem ao palco para apresentar as capacidades de seus agentes em um formato ao vivo de game show, demonstrando o poder e versatilidade da IA com agentes para resolver problemas complexos e multi-etapas. Os critérios de avaliação incluem eficiência de tempo, precisão na resolução de desafios, planejamento do agente e eficiência no consumo de tokens.

    Desafio de Personalização de Modelos

    Complementando o desafio de IA com agentes, o novo desafio de personalização de modelos agora utiliza as técnicas mais recentes de ajuste fino disponíveis no Amazon SageMaker Studio. Aqui você customiza modelos para casos de uso específicos.

    O objetivo é desenvolver modelos altamente efetivos e especializados em domínios que podem superar o desempenho de modelos maiores de referência. O desafio começa com você refinando suas habilidades de personalização de modelos. Utilizando as ferramentas e técnicas que aprendeu, você aplica métodos avançados de ajuste fino para melhorar o desempenho do seu modelo.

    Após a customização dos modelos, o verdadeiro teste começa. Os modelos são submetidos a um ranking para avaliação de desempenho em relação a um modelo de referência. O seu modelo ganha pontos cada vez que o juiz automatizado determina que a resposta do seu modelo customizado é mais precisa e abrangente do que a resposta do modelo de referência.

    Durante o desafio, você recebe feedback em tempo real sobre o desempenho do seu modelo de um avaliador automatizado quando faz submissões no ranking. O ranking avalia as submissões em relação a um conjunto de dados de referência durante toda a competição, fornecendo feedback imediato sobre precisão para ajudá-lo a iterar e melhorar suas soluções.

    Imagem original — fonte: Aws

    No grande finale, os finalistas apresentam as capacidades de seus modelos em um formato ao vivo de game show, exibindo suas habilidades de engenharia de prompts. Durante o game show, a pontuação inclui avaliação por especialistas, onde experts de domínio e público ao vivo participam de votação em tempo real para determinar quais soluções de IA resolvem melhor os desafios reais de negócio.

    Prêmios e Estrutura para 2026

    Para o campeonato AWS AI League 2026, o fundo de prêmios dobra para 50 mil dólares, com trilhas que atendem a desenvolvedores em diferentes níveis de habilidade — desde iniciantes até profissionais avançados. Isso permite que profissionais de todos os níveis participem e demonstrem suas capacidades.

    As empresas também podem solicitar credibilidades da AWS para hospedar torneios internos, enquanto desenvolvedores podem competir durante eventos da AWS.

    Conclusão

    O programa AWS AI League demonstra como competições bem estruturadas podem ser um catalisador poderoso para inovação. O programa oferece a programadores a oportunidade de showcasear suas habilidades de IA, competir e desbloquear inovação através de desafios práticos e envolventes.

    Para aprender mais sobre como hospedar um AWS AI League em sua organização, visite a plataforma AWS AI League e explore o catálogo de treinamento em IA da AWS na AWS Skill Builder para aprofundar conhecimentos sobre construção de agentes inteligentes e personalização de modelos de IA.

    Fonte

    AWS AI League: Model customization and agentic showdown (https://aws.amazon.com/blogs/machine-learning/aws-ai-league-model-customization-and-agentic-showdown/)

  • Arquitetura Mantle: Entendendo o Design de Zero Acesso de Operadores na AWS

    Por que a segurança está no centro da inovação

    Na AWS, existe uma cultura organizacional baseada em discussões honestas e transparentes sobre oportunidades de crescimento, que permite investimentos contínuos e inovação para elevar constantemente o padrão de entrega de valor aos clientes. Recentemente, a empresa compartilhou um exemplo prático dessa abordagem ao detalhar o Mantle, seu novo motor de inferência para o Amazon Bedrock.

    À medida que as cargas de trabalho de inferência e fine-tuning de IA generativa evoluem, também evolui a necessidade de servir essas operações aos clientes de forma otimizada. É dentro desse contexto que surgiu o desenvolvimento do Mantle. Ao reimaginar a arquitetura desse motor de inferência de próxima geração, a AWS colocou como prioridade máxima elevar os padrões de segurança.

    A empresa compreende que os clientes têm foco inegociável em segurança e privacidade de dados. Essa preocupação tem sido central no negócio da AWS desde o início e foi particularmente importante nos primeiros dias do Amazon Bedrock. Desde o começo, ficou claro que as cargas de trabalho de inferência de IA generativa representam uma oportunidade sem precedentes para que os clientes extraiam valor latente de seus dados. Porém, com essa oportunidade vem a necessidade de garantir os mais altos padrões em segurança, privacidade e conformidade, permitindo que os clientes construam sistemas de IA generativa que processem seus dados mais sensíveis e interajam com seus sistemas mais críticos.

    Fundamentos de segurança operacional no Bedrock

    Como linha de base, o Amazon Bedrock foi projetado seguindo os mesmos padrões de segurança operacional encontrados em toda a AWS. A empresa sempre utilizou um modelo de privilégio mínimo para operações, onde cada operador da AWS tem acesso apenas ao conjunto mínimo de sistemas necessários para sua tarefa atribuída, limitado ao tempo em que esse privilégio é realmente necessário.

    Qualquer acesso a sistemas que armazenam ou processam dados de clientes ou metadados é registrado em logs, monitorado para detectar anomalias e auditado regularmente. A AWS se protege contra qualquer ação que pudesse desabilitar ou contornar esses controles. Além disso, no Amazon Bedrock, os dados dos clientes nunca são utilizados para treinar nenhum modelo. Os provedores de modelos não têm nenhum mecanismo para acessar dados de clientes, uma vez que a inferência ocorre apenas dentro da conta de propriedade da AWS que os provedores de modelos não conseguem acessar.

    Essa postura forte de segurança tem sido um fator fundamental para que os clientes desbloqueiem o potencial de aplicações de IA generativa com seus dados sensíveis.

    O Design de Zero Acesso de Operadores no Mantle

    Com o Mantle, a AWS elevou ainda mais esses padrões. Seguindo a abordagem do AWS Nitro System, o Mantle foi projetado desde o início para implementar o conceito de zero acesso de operadores (ZOA), onde a empresa eliminou intencionalmente todos os meios técnicos pelos quais operadores da AWS poderiam acessar dados de clientes. Em vez disso, sistemas e serviços são administrados por meio de automação e APIs seguras que protegem os dados do cliente.

    Com o Mantle, não existe nenhum mecanismo que permita a qualquer operador da AWS fazer login em sistemas de computação subjacentes ou acessar dados de clientes, como prompts de inferência ou completudes. Ferramentas de comunicação interativa como Secure Shell (SSH), AWS Systems Manager Session Manager, e consoles seriais não estão instaladas em nenhum lugar no Mantle.

    Adicionalmente, todas as atualizações de software de inferência precisam ser assinadas digitalmente e verificadas antes de poderem ser implantadas no serviço, garantindo que apenas código aprovado execute no Mantle.

    Imagem original — fonte: Aws

    Mecanismos técnicos de proteção de dados

    O Mantle utiliza a capacidade de atestação de instância EC2, lançada recentemente, para configurar um ambiente de computação endurecido, restrito e imutável para processamento de dados de clientes. Os serviços no Mantle responsáveis por manipular pesos de modelos e conduzir operações de inferência em prompts de clientes são ainda mais reforçados pela garantia de medições de atestação criptograficamente assinadas provenientes do Nitro Trusted Platform Module (NitroTPM).

    Quando um cliente chama um endpoint Mantle (por exemplo, bedrock-mantle.[regions].api.aws), como aqueles que servem a Responses API no Amazon Bedrock, os dados de clientes (prompts) saem do ambiente do cliente através de TLS e são criptografados até chegarem ao serviço Mantle, que opera com ZOA. Em todo o fluxo e dentro do Mantle, nenhum operador — seja da AWS, do cliente ou de um provedor de modelo — consegue acessar os dados do cliente.

    Próximos passos e compromisso contínuo

    O design ZOA do Mantle exemplifica o compromisso de longo prazo da AWS com a segurança e privacidade dos dados de seus clientes. É esse foco que tem permitido que equipes em toda a AWS invistam continuamente em elevar os padrões de segurança. Ao mesmo tempo, a empresa disponibilizou para todos os clientes as capacidades fundamentais de computação confidencial que utiliza internamente na Amazon, como o NitroTPM Attestation, para que utilizem em instâncias de Amazon Elastic Compute Cloud (Amazon EC2).

    A AWS reafirma seu compromisso em continuar investindo no aprimoramento da segurança dos dados dos clientes e em fornecer mais transparência e segurança sobre como isso é alcançado.

    Fonte

    Exploring the zero operator access design of Mantle (https://aws.amazon.com/blogs/machine-learning/exploring-the-zero-operator-access-design-of-mantle/)

  • AWS RDS for MySQL anuncia Innovation Release 9.5 no Ambiente de Pré-visualização

    Novidade no Banco de Dados MySQL da AWS

    O Amazon RDS for MySQL agora suporta o MySQL Innovation Release 9.5 no Ambiente de Pré-visualização do Amazon RDS Database. Essa disponibilidade permite que desenvolvedores e arquitetos avaliem a versão mais recente da inovação MySQL antes de implementá-la em ambientes de produção. A possibilidade de implantar o MySQL 9.5 nesse ambiente oferece os benefícios de um banco de dados totalmente gerenciado, facilitando a configuração, operação e monitoramento.

    O que é Innovation Release 9.5

    O MySQL 9.5 representa a versão mais recente de Innovation Release lançada pela comunidade MySQL. Esses lançamentos de inovação incluem correções de bugs, patches de segurança e novas funcionalidades desenvolvidas pela comunidade. É importante entender a diferença entre os tipos de versão: o Innovation Release recebe suporte da comunidade até o próximo Innovation minor, enquanto as versões MySQL Long Term Support (LTS) — como MySQL 8.0 e MySQL 8.4 — contam com até oito anos de suporte comunitário.

    Como Usar no Ambiente de Pré-visualização

    O Ambiente de Pré-visualização do Amazon RDS Database oferece flexibilidade para testar a nova versão. Ele suporta ambos os modelos de implantação: Single-AZ (zona de disponibilidade única) e Multi-AZ (múltiplas zonas), utilizando a geração mais recente de classes de instância disponíveis na AWS.

    Alguns pontos importantes sobre esse ambiente:

    • Instâncias de banco de dados no Ambiente de Pré-visualização são retidas por no máximo 60 dias e deletadas automaticamente após esse período
    • Snapshots (cópias) do RDS criados no Ambiente de Pré-visualização funcionam exclusivamente dentro do próprio ambiente de pré-visualização
    • O custo das instâncias é igual ao de instâncias RDS de produção criadas na região US East (Ohio)

    Próximos Passos

    Para maiores detalhes sobre compatibilidade e recursos do MySQL 9.5, consulte as notas de versão do MySQL 9.5 e as notas de versão do Amazon RDS MySQL. Informações mais completas sobre como trabalhar com esse ambiente estão disponíveis em Trabalhando com o Ambiente de Pré-visualização do Database.

    Para começar a usar o Ambiente de Pré-visualização, acesse o console do RDS e navegue até a seção de pré-visualização para iniciar sua primeira instância MySQL 9.5.

    Fonte

    Amazon RDS for MySQL announces Innovation Release 9.5 in Amazon RDS Database Preview Environment (https://aws.amazon.com/about-aws/whats-new/2025/12/amazon-rds-mysql-innovation-release/)

  • Aceleração do Desenvolvimento de IA Empresarial com Weights & Biases e Amazon Bedrock AgentCore

    Contexto: A Evolução da IA Generativa em Ambientes Corporativos

    A adoção de inteligência artificial generativa nas empresas evoluiu significativamente. Passou de simples interações com modelos de fundação para fluxos de trabalho sofisticados envolvendo agentes autônomos. Conforme as organizações transitam de prototipagens para implementações em produção, surge a necessidade crítica de ferramentas robustas que permitam desenvolvimento, avaliação e monitoramento de aplicações de IA em larga escala.

    A integração entre Amazon Bedrock, o recém-lançado Amazon Bedrock AgentCore e a plataforma W&B Weave oferece uma solução abrangente para este desafio. Esta combinação permite rastrear chamadas individuais a modelos, monitorar fluxos de agentes complexos em produção e otimizar o ciclo de vida completo de desenvolvimento de soluções de IA empresariais.

    O que é W&B Weave: Uma Visão Geral

    Weights & Biases (W&B) é um sistema de desenvolvimento para IA que oferece ferramentas abrangentes para treinamento de modelos, ajuste fino e aproveitamento de modelos de fundação em empresas de todos os tamanhos e diversos setores. O W&B Weave funciona como um conjunto unificado de ferramentas para desenvolvedores que suportam cada etapa dos fluxos de trabalho com IA generativa e agentes.

    As principais capacidades oferecidas incluem:

    • Rastreamento e Monitoramento: Acompanhamento de chamadas a modelos de linguagem grande (LLM) e lógica da aplicação para depuração e análise de sistemas em produção
    • Iteração Sistemática: Refinamento e melhoria contínua de prompts, conjuntos de dados e modelos
    • Experimentação: Testes com diferentes modelos e prompts através do LLM Playground
    • Avaliação: Uso de funções de pontuação personalizadas ou pré-construídas com ferramentas de comparação para avaliar e melhorar sistematicamente o desempenho das aplicações
    • Coleta de Feedback: Integração de feedback de usuários e especialistas para testes e validação em cenários reais
    • Proteção de Aplicações: Salvaguardas para moderação de conteúdo, segurança de prompts e mais. Inclui suporte a Amazon Bedrock Guardrails personalizadas, de terceiros ou nativas do W&B Weave

    O W&B Weave pode ser gerenciado completamente pela Weights & Biases em ambientes multi-tenant ou single-tenant, ou ser implantado diretamente na Amazon Virtual Private Cloud (VPC) do cliente. Além disso, a integração do W&B Weave na Plataforma de Desenvolvimento W&B oferece às organizações uma experiência perfeitamente integrada entre fluxos de trabalho de treinamento/ajuste fino de modelos e fluxos de trabalho com IA e agentes.

    Para começar, é possível se inscrever na Plataforma de Desenvolvimento W&B da Weights & Biases através do AWS Marketplace. Indivíduos e equipes acadêmicas podem se inscrever no W&B sem custos adicionais.

    Rastreamento de Modelos do Amazon Bedrock com W&B Weave

    A integração entre W&B Weave e Amazon Bedrock é feita de forma simplificada através de SDKs em Python e TypeScript. Após instalar a biblioteca e patchar seu cliente Bedrock, o W&B Weave rastreia automaticamente as chamadas aos modelos de linguagem.

    O processo é direto. Instale a biblioteca, configure o cliente Bedrock com o patch fornecido, e o rastreamento acontece automaticamente sem modificações no código principal da aplicação:

    !pip install weave
    import weave
    import boto3
    import json
    from weave.integrations.bedrock.bedrock_sdk import patch_client
    
    weave.init("my_bedrock_app")
    
    # Create and patch the Bedrock client
    client = boto3.client("bedrock-runtime")
    patch_client(client)
    
    # Use the client as usual
    response = client.invoke_model(
        modelId="anthropic.claude-3-5-sonnet-20240620-v1:0",
        body=json.dumps({
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 100,
            "messages": [
                {"role": "user", "content": "What is the capital of France?"}
            ]
        }),
        contentType='application/json',
        accept='application/json'
    )
    
    response_dict = json.loads(response.get('body').read())
    print(response_dict["content"][0]["text"])

    Esta integração versionará automaticamente experimentos e rastreará configurações, proporcionando visibilidade completa das aplicações Amazon Bedrock sem necessidade de alterações na lógica central.

    Imagem original — fonte: Aws

    Experimentação com Modelos do Amazon Bedrock no Playground do W&B Weave

    O W&B Weave Playground acelera a engenharia de prompts com uma interface intuitiva para testes e comparação de modelos Bedrock. Os recursos principais incluem:

    • Edição direta de prompts e possibilidade de reexecutar mensagens
    • Comparação lado a lado de modelos
    • Acesso direto a partir de visualizações de rastreamento para iteração rápida

    Para começar, adicione suas credenciais AWS nas configurações do Playground, selecione seus modelos preferidos do Amazon Bedrock e comece a experimentar. A interface permite iteração rápida em prompts enquanto mantém rastreabilidade completa dos experimentos.

    Imagem original — fonte: Aws

    Avaliação de Modelos do Amazon Bedrock com W&B Weave

    W&B Weave Evaluations oferece ferramentas dedicadas para avaliar modelos de IA generativa de forma eficaz. Ao aproveitar W&B Weave Evaluations em conjunto com Amazon Bedrock, usuários podem avaliar eficientemente estes modelos, analisar resultados e visualizar desempenho em métricas principais.

    É possível usar funções de pontuação integradas do W&B Weave, funções de terceiros ou personalizadas, além de feedback humano e de especialistas. Esta combinação permite compreender mais profundamente as compensações entre modelos, como diferenças em custo, precisão, velocidade e qualidade de saída.

    W&B Weave oferece um modo nativo para rastrear avaliações através das classes Model e Evaluation. Para configurar um trabalho de avaliação, os clientes podem:

    • Definir um dataset ou lista de dicionários com uma coleção de exemplos a serem avaliados
    • Criar uma lista de funções de pontuação, onde cada função recebe a saída do modelo e opcionalmente outras entradas dos exemplos, retornando um dicionário com os scores
    • Definir um modelo Amazon Bedrock usando a classe Model
    • Executar a avaliação chamando Evaluation

    Segue um exemplo de configuração de um trabalho de avaliação:

    import weave
    from weave import Evaluation
    import asyncio
    
    # Collect your examples
    examples = [
        {"question": "What is the capital of France?", "expected": "Paris"},
        {"question": "Who wrote 'To Kill a Mockingbird'?", "expected": "Harper Lee"},
        {"question": "What is the square root of 64?", "expected": "8"},
    ]
    
    # Define any custom scoring function
    @weave.op()
    def match_score1(expected: str, output: dict) -> dict:
        # Here is where you'd define the logic to score the model output
        return {'match': expected == model_output['generated_text']}
    
    @weave.op()
    def function_to_evaluate(question: str):
        # here's where you would add your LLM call and return the output
        return {'generated_text': 'Paris'}
    
    # Score your examples using scoring functions
    evaluation = Evaluation(
        dataset=examples,
        scorers=[match_score1]
    )
    
    # Start tracking the evaluation
    weave.init('intro-example')
    
    # Run the evaluation
    asyncio.run(evaluation.evaluate(function_to_evaluate))

    O dashboard de avaliação visualiza métricas de desempenho, permitindo decisões informadas sobre seleção e configuração de modelos. Para orientações detalhadas, consulte o artigo anterior sobre avaliação de sumarização de LLM com Amazon Bedrock e Weave.

    Imagem original — fonte: Aws

    Observabilidade do Amazon Bedrock AgentCore com W&B Weave

    Amazon Bedrock AgentCore é um conjunto completo de serviços para implantação e operação de agentes altamente capazes de forma segura em escala empresarial. Oferece ambientes de execução mais seguros, ferramentas de execução de fluxo de trabalho e controles operacionais que funcionam com frameworks populares como Strands Agents, CrewAI, LangGraph e LlamaIndex, além de muitos modelos de LLM — sejam do Amazon Bedrock ou de fontes externas.

    AgentCore inclui observabilidade integrada através de dashboards do Amazon CloudWatch que rastreiam métricas principais como uso de tokens, latência, duração da sessão e taxas de erro. Também rastreia etapas de fluxo de trabalho, mostrando quais ferramentas foram invocadas e como o modelo respondeu, oferecendo visibilidade essencial para depuração e garantia de qualidade em produção.

    Quando trabalhando com AgentCore e W&B Weave em conjunto, as equipes podem aproveitar o monitoramento operacional integrado e as bases de segurança do AgentCore enquanto também usam W&B Weave se se alinhar com seus fluxos de trabalho de desenvolvimento existentes. Organizações já investidas no ambiente W&B podem optar por incorporar as ferramentas de visualização do W&B Weave ao lado das capacidades nativas do AgentCore. Esta abordagem oferece flexibilidade para usar a solução de observabilidade que melhor se encaixa nos processos estabelecidos e preferências das equipes.

    Duas Abordagens Principais para Observabilidade

    Existem duas formas principais de adicionar observabilidade W&B Weave a seus agentes AgentCore: usando o SDK nativo W&B Weave ou integrando através de OpenTelemetry.

    SDK Nativo W&B Weave

    A abordagem mais simples é usar o decorador @weave.op do W&B Weave para rastrear automaticamente chamadas de função. Inicialize W&B Weave com o nome do seu projeto e envolva as funções que deseja monitorar:

    import weave
    import os
    
    os.environ["WANDB_API_KEY"] = "your_api_key"
    weave.init("your_project_name")
    
    @weave.op()
    def word_count_op(text: str) -> int:
        return len(text.split())
    
    @weave.op()
    def run_agent(agent: Agent, user_message: str) -> Dict[str, Any]:
        result = agent(user_message)
        return {"message": result.message, "model": agent.model.config["model_id"]}

    Como AgentCore é executado como um container Docker, adicione W&B Weave às suas dependências (por exemplo, uv add weave) para incluí-lo na imagem do seu container.

    Integração OpenTelemetry

    Para equipes que já usam OpenTelemetry ou desejam instrumentação agnóstica de fornecedor, W&B Weave suporta OTLP (Protocolo OpenTelemetry) diretamente:

    from opentelemetry import trace
    from opentelemetry.exporter.otlp.proto.http.trace_exporter import OTLPSpanExporter
    
    auth_b64 = base64.b64encode(f"api:{WANDB_API_KEY}".encode()).decode()
    exporter = OTLPSpanExporter(
        endpoint="https://trace.wandb.ai/otel/v1/traces",
        headers={"Authorization": f"Basic {auth_b64}", "project_id": WEAVE_PROJECT}
    )
    
    # Create spans to track execution
    with tracer.start_as_current_span("invoke_agent") as span:
        span.set_attribute("input.value", json.dumps({"prompt": user_message}))
        result = agent(user_message)
        span.set_attribute("output.value", json.dumps({"message": result.message}))

    Esta abordagem mantém compatibilidade com a infraestrutura OpenTelemetry existente do AgentCore enquanto roteia os rastreamentos para W&B Weave para visualização.

    Imagem original — fonte: Aws

    Monitoramento de Dupla Camada

    Ao usar AgentCore e W&B Weave em conjunto, as equipes dispõem de múltiplas opções para observabilidade. A integração CloudWatch do AgentCore monitora saúde do sistema, utilização de recursos e taxas de erro, enquanto fornece rastreamento para raciocínio de agente e seleção de ferramentas. W&B Weave oferece capacidades de visualização que apresentam dados de execução em formatos familiares a equipes já usando o ambiente W&B.

    Ambas as soluções fornecem visibilidade sobre como agentes processam informações e tomam decisões, permitindo que organizações escolham a abordagem de observabilidade que melhor se alinhe com fluxos de trabalho e preferências existentes.

    Esta abordagem de dupla camada significa que os usuários podem:

    • Monitorar acordos de nível de serviço (SLAs) em produção através de alertas CloudWatch
    • Depurar comportamentos complexos de agentes no explorador de rastreamento do W&B Weave
    • Otimizar uso de tokens e latência com buscas detalhadas de execução
    • Comparar desempenho de agentes entre diferentes prompts e configurações

    A integração requer mudanças mínimas de código, preserva sua implantação AgentCore existente e escala com a complexidade do seu agente. Seja construindo agentes simples que chamam ferramentas ou orquestrando fluxos de trabalho multi-etapa, esta pilha de observabilidade fornece os insights necessários para iterar rapidamente e implantar com confiança.

    Para detalhes de implementação e exemplos de código completos, consulte o artigo anterior.

    Primeiros Passos na Integração

    Para começar a trabalhar com esta integração:

    • Solicite uma avaliação gratuita ou se inscreva na Plataforma de Desenvolvimento Weights & Biases através do AWS Marketplace
    • Instale o SDK Weave e siga os exemplos de código para começar a rastrear suas chamadas a modelos Bedrock
    • Experimente com diferentes modelos no W&B Weave Playground adicionando suas credenciais AWS e testando vários modelos do Amazon Bedrock
    • Configure avaliações usando o framework W&B Weave Evaluation para comparar sistematicamente o desempenho de modelos para seus casos de uso
    • Melhore seus agentes AgentCore adicionando observabilidade W&B Weave usando o SDK nativo ou integração OpenTelemetry
    • Comece com uma integração simples para rastrear suas chamadas Amazon Bedrock, depois adote progressivamente recursos mais avançados conforme suas aplicações de IA crescem em complexidade

    Conclusão

    A combinação de Amazon Bedrock, Amazon Bedrock AgentCore e W&B Weave oferece uma solução robusta para o desenvolvimento, otimização e operação de soluções empresariais de IA com agentes. W&B Weave aprimora cada etapa do ciclo de vida de desenvolvimento de LLM — desde experimentação inicial no Playground até avaliação sistemática de desempenho de modelos, e finalmente monitoramento em produção de fluxos de trabalho complexos de agentes.

    A integração entre Amazon Bedrock e W&B Weave fornece várias capacidades-chave: rastreamento automático de chamadas a modelos de fundação do Amazon Bedrock com mudanças mínimas de código usando o SDK W&B Weave; experimentação rápida através da interface intuitiva do W&B Weave Playground para testes de prompts e comparação de modelos; avaliação sistemática com funções de pontuação personalizadas para comparar diferentes modelos do Amazon Bedrock; e observabilidade abrangente para implantações AgentCore, com métricas CloudWatch fornecendo monitoramento operacional robusto suplementado por rastreamentos de execução detalhados.

    Esta combinação de Amazon Bedrock e ferramentas de desenvolvimento abrangentes do W&B Weave fornece a fundação necessária para construir, avaliar e manter soluções de IA prontas para produção em escala.

    Fonte

    Accelerate Enterprise AI Development using Weights & Biases and Amazon Bedrock AgentCore (https://aws.amazon.com/blogs/machine-learning/accelerate-enterprise-ai-development-using-weights-biases-weave-and-amazon-bedrock-agentcore/)

  • Além da Cadeia de Pensamento: Cadeia de Rascunho no Amazon Bedrock

    O Desafio da Eficiência em IA Generativa

    Conforme as organizações ampliam suas implementações de inteligência artificial generativa, um desafio crítico se intensifica: como equilibrar qualidade dos resultados, custos operacionais e velocidade de resposta? Os números revelam a urgência dessa questão. Os custos de inferência dominam entre 70 a 90% das despesas operacionais de modelos de linguagem grande (LLM). Quando estratégias de prompting verbosas inflam o volume de tokens de 3 a 5 vezes, o impacto financeiro e de desempenho se torna inescapável. Organizações buscam ativamente alternativas mais eficientes para interagir com esses modelos.

    Métodos tradicionais de prompting, embora funcionem, frequentemente criam sobrecarga desnecessária que prejudica tanto a eficiência de custos quanto os tempos de resposta. É neste contexto que surge a Cadeia de Rascunho (Chain-of-Draft, CoD), uma técnica inovadora de prompting que muda radicalmente como modelos abordam tarefas de raciocínio.

    Da Cadeia de Pensamento para Cadeia de Rascunho

    Compreendendo a Cadeia de Pensamento Tradicional

    A técnica de Cadeia de Pensamento (Chain-of-Thought, CoT) guia modelos de linguagem a raciocinar sobre problemas passo a passo, em vez de saltar diretamente para respostas. Este método provou ser particularmente eficaz em tarefas complexas como quebra-cabeças lógicos, problemas matemáticos e cenários de raciocínio de bom senso. Ao espelhar padrões humanos de resolução de problemas, CoT ajuda modelos a decompor questões complexas em etapas gerenciáveis, melhorando tanto a precisão quanto a transparência.

    Considere um exemplo simples: “Se há 5 maçãs e você come 2, quantas maçãs restam?” Uma resposta com CoT seria: “Comece com 5 maçãs. Como 2 maçãs. Subtraia 2 de 5. 5 – 2 = 3 maçãs restantes.”

    Porém, essa abordagem apresenta desvantagens significativas em ambientes de produção. A natureza verbosa das respostas CoT aumenta o uso de tokens e consequentemente os custos. O tempo estendido necessário para gerar explicações detalhadas resulta em latência mais alta, tornando-a menos adequada para aplicações em tempo real. Além disso, os outputs extensos complicam o processamento posterior e integração com outros sistemas.

    Apresentando a Cadeia de Rascunho

    A Cadeia de Rascunho (CoD) é uma técnica de prompting que visa reduzir verbosidade limitando o número de palavras em cada etapa de raciocínio. Ela concentra-se apenas nos cálculos ou transformações essenciais necessários para avançar, reduzindo significativamente o uso de tokens e a latência de inferência.

    CoD se inspira em como humanos resolvem problemas com anotações mentais breves em vez de explicações verbosas. A chave da inovação reside em uma restrição simples mas poderosa: cada etapa de raciocínio é limitada a cinco palavras ou menos. Essa limitação força o modelo a focar em componentes lógicos essenciais enquanto minimiza verbosidade desnecessária.

    Voltando ao exemplo anterior: para a pergunta “Jason tinha 20 pirulitos. Ele deu alguns a Denny. Agora Jason tem 12 pirulitos. Quantos pirulitos Jason deu a Denny?”, uma resposta CoT poderia incluir várias frases explicativas. Uma resposta CoD simplesmente diria: “Início: 20, Fim: 12, 20 – 12 = 8”. Esta abordagem minimalista alcança o mesmo raciocínio lógico usando significativamente menos tokens.

    Imagem original — fonte: Aws

    Por Que a Cadeia de Rascunho Funciona

    A ideia fundamental por trás de CoD é que cadeias de raciocínio tipicamente contêm alta redundância. Destilando etapas até seu núcleo semântico, CoD ajuda o modelo a focar na estrutura lógica da tarefa em vez de fluência linguística. O resultado é latência de inferência menor devido a outputs mais curtos, custos de token reduzidos pela geração minimizada e output mais limpo para parsing ou automação posterior.

    Esse minimalismo é alcançado sem sacrificar precisão. De acordo com pesquisa na área, CoD “alcançou 91,4% de precisão em GSM8K (versus 95,3% para CoT), enquanto reduzia tokens de output em até 92,1%, e cortava latência pela metade em vários modelos testados”.

    Tecnicamente, CoD utiliza prompts em linguagem natural que instruem o modelo a “pensar passo a passo” enquanto explicitamente limitam o comprimento de cada etapa de raciocínio: “Mantenha apenas um rascunho mínimo para cada etapa de pensamento, com no máximo 5 palavras.” Modelos como GPT-4, Claude e Cohere Command R+ funcionaram especialmente bem sob essas restrições, particularmente quando exemplos few-shot foram usados para demonstrar o padrão de raciocínio conciso.

    Além de tarefas aritméticas, CoD demonstrou forte desempenho em tarefas de raciocínio de bom senso. Avaliações usando benchmarks revelaram que CoD não apenas reduz significativamente a geração de tokens e latência, mas em vários casos supera CoT em precisão — especialmente quando output verboso não é necessário. Um exemplo notável com um modelo de linguagem grande em tarefas de compreensão de esportes mostrou que CoT produzia respostas longas e verbosas com média de 172,5 tokens de output, enquanto CoD reduzia isso para 31,3 tokens, alcançando redução de ~82%. Curiosamente, a precisão melhorou ligeiramente, demonstrando que CoD pode ser mais eficaz com menos palavras.

    Implementação Prática na AWS

    Configuração e Pré-requisitos

    Para testar e comparar técnicas de prompting no Amazon Bedrock, você precisa verificar se possui:

    • Conta AWS com permissão para criar e executar funções Lambda
    • Acesso ao Amazon Bedrock habilitado em sua região AWS (por exemplo, us-east-1) com Model Access para modelos de sua escolha
    • Função AWS IAM para execução da função Lambda
    • Permissões para invocar modelos do Amazon Bedrock (bedrock:Converse)
    • Permissões para enviar métricas personalizadas ao Amazon CloudWatch (cloudwatch:PutMetricData)
    • Permissões opcionais de CloudWatch Logs para logging
    • Bibliotecas Python necessárias (boto3), incluída no ambiente de runtime do AWS Lambda para Python 3.9 ou posterior

    Avaliação com a API Bedrock Converse

    O ponto de partida é criar uma função AWS Lambda que interage com modelos usando a API Amazon Bedrock Converse. Essa API fornece uma interface unificada e consistente para interagir com vários modelos de fundação, simplificando o envio de mensagens conversacionais e recebimento de respostas, suportando diálogos multi-turno e recursos avançados enquanto gerencia autenticação AWS e infraestrutura.

    A função Lambda será configurada para:

    • Inicializar clientes para Amazon Bedrock Runtime e CloudWatch
    • Enviar um prompt estático como mensagem do usuário para a API Converse
    • Recuperar o texto da resposta e calcular latência e uso de tokens para entrada e saída
    • Publicar métricas no CloudWatch e registrar logs relevantes
    • Retornar a resposta do modelo junto com contagens de tokens de entrada/saída
    • Registrar erros e retorná-los com código HTTP apropriado

    Código da Função Lambda

    import json
    import boto3
    import time
    import logging
    from botocore.exceptions import ClientError
    
    logger = logging.getLogger()
    logger.setLevel(logging.INFO)
    
    bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')
    cloudwatch = boto3.client('cloudwatch')
    
    MODEL_ID = "model1-id"  # Replace with actual Model 1 ID
    
    PROMPT = (
        "You have three boxes. Each box contains three balls, but the balls can be red, blue, or green. "
        "Box 1 is labeled as 'Red Balls Only'. Box 2 is labeled 'Blue Balls Only'. "
        "Box 3 is labeled 'Red and Blue Balls Only'. The labels on the boxes are all incorrect. "
        "The Task: You must determine the contents of each box, knowing that all labels are incorrect. "
        "You can only take a single ball from one box and observe its color. "
        "Then you must deduce the contents of all three boxes. "
        "Think step by step to answer the question, but only keep a minimum draft for each thinking step, with 5 words at most. "
        "Return the answer at the end of the response after separator ###."
    )
    
    def lambda_handler(event, context):
        conversation = [{"role": "user", "content": [{"text": PROMPT}]}]
        start_time = time.time()
        
        try:
            response = bedrock.converse(
                modelId=MODEL_ID,
                messages=conversation,
                inferenceConfig={"maxTokens": 2000, "temperature": 0.7}
            )
            
            response_text = response["output"]["message"]["content"][0]["text"]
            latency = time.time() - start_time
            input_tokens = len(PROMPT.split())
            output_tokens = len(response_text.split())
            
            cloudwatch.put_metric_data(
                Namespace='ChainOfDraft',
                MetricData=[
                    {"MetricName": "Latency", "Value": latency, "Unit": "Seconds"},
                    {"MetricName": "TokensUsed", "Value": input_tokens + output_tokens, "Unit": "Count"},
                ]
            )
            
            logger.info({
                "request_id": context.aws_request_id,
                "latency_seconds": round(latency, 2),
                "total_tokens": input_tokens + output_tokens
            })
            
            return {
                "statuscode": 200,
                "body": json.dumps({
                    "response": response_text,
                    "input_tokens": input_tokens,
                    "output_tokens": output_tokens,
                    "metrics": {
                        "latency_seconds": round(latency, 2),
                        "total_tokens": input_tokens + output_tokens,
                    },
                }),
            }
            
        except ClientError as e:
            logger.error(f"AWS service error: {e}")
            return {"statuscode": 500, "body": json.dumps("Service error occurred")}
        except Exception as e:
            logger.error(f"Unexpected error: {e}")
            return {"statusCode": 500, "body": json.dumps(f"Internal error occurred: {e}")}

    Estratégias de Teste

    Para avaliar as técnicas de prompting, três abordagens são testadas:

    Prompt Padrão: O prompt sem instruções de raciocínio, pedindo resposta direta sem explicação.

    Prompt de Cadeia de Pensamento: O mesmo puzzle com instrução “Think step by step to answer the question” e retornar a resposta após separador.

    Prompt de Cadeia de Rascunho: O puzzle com instrução “Think step by step to answer the question but only keep a minimum draft for each thinking step, with 5 words at most.”

    Resultados Práticos

    Ao testar a função Lambda com esses prompts em dois modelos diferentes, os resultados revelaram eficiências notáveis:

    Para o Modelo-1: CoD reduziu o uso total de tokens de 350 para 216 (redução de 39%) e cortou latência de 3,28 para 1,58 segundos (redução de 52%).

    Para o Modelo-2: os ganhos foram ainda maiores. CoD baixou tokens de 601 para 142 (redução de 76%) e latência de 3,81 para 0,79 segundos (redução de 79%).

    Esses números demonstram que Cadeia de Rascunho oferece melhorias significativas em velocidade e eficiência de tokens comparado a Cadeia de Pensamento, com resultados especialmente fortes no Modelo-2.

    Quando Não Usar Cadeia de Rascunho

    Embora CoD ofereça benefícios convincentes em eficiência e desempenho, não é universalmente aplicável. Alguns cenários requerem CoT ou abordagens ainda mais verbosas:

    Casos sem exemplos prévios: CoD funciona melhor quando acompanhado de exemplos few-shot robustos. Em cenários zero-shot — sem padrões de raciocínio fornecidos — modelos frequentemente lutam para adotar o estilo minimalista de rascunho, levando a menor precisão ou etapas de raciocínio incompletas.

    Tarefas exigindo alta interpretabilidade: Para casos como revisão de documentos legais ou médicos, trilhas de auditoria ou ambientes regulados, raciocínio verboso pode ser essencial. As explicações passo a passo transparentes de CoT oferecem melhor rastreabilidade e confiança.

    Modelos de linguagem pequenos: CoD teve desempenho inferior em modelos com menos de 3 bilhões de parâmetros. Esses modelos carecem da fidelidade de seguimento de instruções e poder de raciocínio necessários para executar prompts no estilo CoD efetivamente. CoT pode produzir melhores resultados nesses casos.

    Tarefas criativas ou abertas: Tarefas que se beneficiam de elaboração — como escrita, ideação ou conversas voltadas ao usuário — podem perder valor se muito condensadas. CoD é melhor adequado para raciocínio estruturado, lógica e tarefas determinísticas onde brevidade melhora o desempenho.

    Conclusão e Pontos-Chave

    A Cadeia de Rascunho emerge como uma técnica eficiente para organizações buscando otimizar implementações de IA generativa. Ao encorajar modelos de linguagem a raciocinar em etapas concisas e focadas, CoD alcança melhorias notáveis em desempenho e utilização de recursos. Implementações usando Amazon Bedrock e AWS Lambda demonstram benefícios significativos em uso de tokens e melhoria em latência comparado ao prompting tradicional de Cadeia de Pensamento, mantendo precisão comparável em vários modelos de fundação e tarefas complexas de raciocínio.

    Conforme a IA continua evoluindo, CoD representa um passo significativo em direção a modelos de linguagem mais eficientes e performáticos. É particularmente valioso para tarefas de raciocínio estruturado onde velocidade e eficiência de tokens são críticas, embora não seja uma solução única para todos os cenários. Profissionais são encorajados a explorar CoD em seus próprios fluxos de trabalho de IA, aproveitando seu potencial para reduzir custos, melhorar tempos de resposta e aumentar escalabilidade.

    O futuro da IA reside em abordagens de raciocínio mais inteligentes e eficientes, e a técnica de prompting de Cadeia de Rascunho está na vanguarda dessa transformação.

    Recursos Adicionais

    Fonte

    Move Beyond Chain-of-Thought with Chain-of-Draft on Amazon Bedrock (https://aws.amazon.com/blogs/machine-learning/move-beyond-chain-of-thought-with-chain-of-draft-on-amazon-bedrock/)