Author: Make.com Service User

IA Generativa Autônoma nas Empresas – Parte 2: Orientação por Persona

Introdução: O Desafio Real da IA Autônoma

Este é o segundo artigo de uma série em duas partes publicada pelo Centro de Inovação em IA Generativa da AWS. Se você perdeu a primeira parte sobre a operacionalização de IA autônoma, vale a pena revisitar aquele conteúdo para compreender os fundamentos.

A barreira mais importante para a adoção de IA autônoma nas empresas não é tecnológica — é organizacional. Na primeira parte desta série, estabeleceu-se que organizações que geram valor real com agentes de IA compartilham três características: definem o trabalho com precisão, estabelecem limites claros para a autonomia, e tratam a melhoria contínua como um hábito permanente, não como um projeto pontual.

Também foram apresentados os quatro ingredientes essenciais para um trabalho verdadeiramente adequado aos agentes: um início e fim bem definidos, exigência de julgamento sobre múltiplas ferramentas, sucesso observável e mensurável, e um modo de falha seguro. Sem esses fundamentos, até o agente mais sofisticado será um fracasso em produção.

Agora vem a pergunta mais difícil: quem faz isso funcionar, e como? Este artigo fala diretamente com os líderes que precisam transformar essa base compartilhada em ação concreta. Cada função executiva traz um conjunto distinto de responsabilidades, riscos e pontos de alavancagem. Independentemente de você gerenciar um centro de lucro, conduzir arquitetura empresarial, liderar segurança, governar dados ou supervisionar conformidade — este texto é escrito na linguagem do seu trabalho. É exatamente nessas funções que a IA autônoma prospera ou desaparece silenciosamente.

Orientação por Persona: Papéis e Responsabilidades

Para o Dono do Negócio: Conecte o Agente aos seus KPIs

Se você é responsável por um centro de lucro, não precisa de um brinquedo tecnológico novo. O que você realmente precisa é reduzir o número de tickets abertos, diminuir os dias do seu ciclo de conversão de caixa, reduzir carrinhos de compras abandonados, diminuir exceções de conformidade. Um agente é útil apenas quando pode ser conectado diretamente a esses números.

O primeiro passo é escrever uma descrição de trabalho para o agente da mesma forma que você faria para um novo funcionário. Algo como: “Este agente recebe uma entrada de tipo X, verifica Y, executa Z e encaminha para essa equipe quando termina.” Inclua o que significa “terminar” em termos operacionais: tempo de resposta, limiar de qualidade, gatilhos de escalação, e compromissos voltados para o cliente.

O segundo passo é fundamentar o caso de negócio nos números que sua equipe já acompanha. Quantas unidades por semana passam por esse fluxo de trabalho? Qual é o custo unitário em mão de obra, retrabalho e perdas? Quanto tempo fica aguardando em filas? Com que frequência retorna porque falta algo ou está errado? Se você não consegue responder essas perguntas hoje, seu primeiro projeto não é um agente — é instrumentalizar o fluxo de trabalho.

O terceiro passo é a sequência de implementação. No início da jornada, o agente mais útil é frequentemente aquele que elimina transferências manuais: lê a solicitação de entrada, coleta contexto de múltiplos sistemas, propõe um plano, e entrega esse plano à sua equipe com tudo pré-preparado. Pode não fechar a solução sozinho, mas remove horas ou dias de ida e volta entre equipes. Ganhos de economia como este constroem credibilidade com o CFO e lhe dão capital político para perseguir casos de uso mais ambiciosos, focados em receita, depois.

O dono do negócio não precisa entender modelos ou prompts. Precisa possuir um pequeno portfólio de trabalhos de agentes conectados diretamente às suas métricas e insistir que cada iniciativa comece com um contrato de trabalho escrito, não com um slide com um rótulo bonito.

Para o CTO ou Arquiteto Chefe: Decida se Quer Dez ou Cem Agentes

Se você é CTO, um dos seus maiores riscos é o sucesso. Assim que o primeiro agente funciona bem, outras equipes vão querer um. Se cada equipe constrói seu próprio stack — framework próprio, conectores próprios, modelo de acesso próprio — você acabará com um zoológico de agentes que parecem diferentes, são testados diferentemente, e são impossíveis de monitorar como um todo.

A questão arquitetural é simples de enunciar, mas difícil de executar: você quer dez agentes impressionantes pontuais, ou quer um sistema que suporte com segurança cem agentes?

O caminho sistêmico exige trabalho árduo no início. Significa padronizar como as ferramentas são expostas para que cada agente chame a mesma integração quando precisa ler dados de clientes, atualizar um ticket, ou processar um pagamento. Significa separar pensamento de ação no seu design: um componente planeja, outro chama ferramentas, outro valida conformidade, outro explica decisões aos usuários. Significa capturar rastreamentos de decisões em um formato consistente para que observabilidade e debug funcionem entre casos de uso. E exige pensar em agentes como serviços de longa duração, não scripts de curta vida. Precisam de identidades, permissões, rotação de credenciais, gestão de ciclo de vida, e uma forma de serem atualizados sem quebrar seus consumidores.

É mais trabalho no dia um, mas é o que permite você dizer “sim” à décima equipe que quer um agente sem começar do zero. O trabalho do CTO não é escolher o melhor framework de agentes no vácuo. É construir um piso robusto — identidade, execução de políticas, logging, conectores, e ganchos de avaliação — que permita muitas equipes entregar agentes com segurança, rapidez e consistência.

Para o CISO: Trate Agentes como Colegas, Não como Código

Se você é responsável por segurança, está acostumado a pensar em ativos: sistemas, repositórios de dados, credenciais. Agentes adicionam algo novo ao seu modelo de ameaça: entidades autorizadas que podem tomar decisões e executar ações à velocidade da máquina. O erro é tratar agentes como apenas outra aplicação. Eles são mais parecidos com colegas. Têm contas. Têm papéis. Têm ferramentas que podem usar. Podem cometer erros. Podem ser mal configurados.

A abordagem prática é configurar identidades não-humanas para agentes com a mesma seriedade que você aplica a identidades humanas. Cada agente deve ter suas próprias credenciais, suas próprias permissões, e seu próprio rastro de auditoria. Não deve herdar todos os direitos da conta de serviço na qual acaba sendo executado. Quando um agente lê dados sensíveis ou chama uma ferramenta de alto risco, isso deve ser visível em seus logs de forma que sua equipe reconheça.

Você também vai querer formas de parar agentes de forma limpa. Isso significa interruptores de emergência que realmente funcionam, não apenas uma linha em um documento de design. Significa políticas que dizem “Esta classe de ação sempre exige aprovação humana” e as impõe no nível da ferramenta, não apenas no prompt do agente. Significa observar comportamentos que se desviam: um agente que de repente chama uma ferramenta muito mais vezes que o usual, ou começa a ler dados que não precisava antes.

CISOs que se adaptam bem à IA autônoma não tentam bloquear autonomia inteiramente. Definem onde a autonomia é aceitável, que evidências são necessárias para confiar nela, e o que acontece quando essa confiança é quebrada. Participam da conversa de design cedo e fazem política parte da forma do agente, não uma porta de entrada no final.

Para o Diretor de Dados: Torne os Dados Mundanos

Agentes amplificam qualquer base de dados que você já possui. Se seus dados são fragmentados, desatualizados e mal documentados, agentes podem tornar esses problemas visíveis para todos rapidamente. Se seus dados são consistentes, bem governados e simples de entender, agentes podem multiplicar seu valor.

O trabalho do CDO na era dos agentes é tornar os dados mundanos, da melhor forma possível. Significa que quando um agente pergunta “mostre-me todos os sinistros abertos acima desse limite”, ele recebe uma resposta consistente independentemente de qual região ou linha de negócio está operando. Significa que existe uma única definição de “pontuação de saúde do cliente” e é documentada bem o suficiente para que pessoas e agentes a usem. Significa que a linhagem é clara: quando algo dá errado, você consegue rastrear a decisão através das métricas, através das features, até o sistema de origem.

Também significa ser realista sobre prontidão. Alguns fluxos de trabalho simplesmente não estão prontos para decisões autônomas porque os dados nos quais dependem são muito incompletos ou contraditórios. Os melhores CDOs abraçam isso. Não dizem “não conseguimos suportar agentes.” Dizem “conseguimos suportar essa classe de trabalho hoje. Se quer automatizar aquela outra classe, aqui estão as melhorias de dados que precisamos primeiro.”

Uma das contribuições mais valiosas que um CDO pode dar à conversa sobre agentes é um mapa: quais domínios têm dados em qualidade de produção, quais estão em progresso, e onde estão as armadilhas. Esse mapa ajuda todos os outros a escolherem seus primeiros trabalhos com sabedoria, em vez de descobrir débito técnico de dados no meio da implementação.

Para o Chefe de Ciência de Dados ou IA: Avaliação é seu Produto Real

Se você lidera ciência de dados ou IA, é tentador focar em modelos: qual modelo fundacional, qual técnica de fine-tuning, qual pontuação em benchmarks. Essas decisões importam, mas em produção, seu produto real é o sistema de avaliação que envolve o modelo. Agentes podem falhar de formas que benchmarks não medem. Ficam presos em loops. Chamam ferramentas incorretamente. Completam tarefas parcialmente de forma que parecem plausíveis mas estão erradas. Se comportam bem em dados de teste limpos e desabam em casos extremos que ninguém pensou em incluir.

Um sistema de avaliação efetivo faz três coisas. Primeiro, transforma trabalho real em testes. Quando um agente comete um erro em produção, esse cenário se torna parte de uma suíte de avaliação crescente. Com o tempo, os casos mais difíceis que você encontra se tornam guardrails que protegem você de regressões. Segundo, executa automaticamente. Mudanças em prompts, modelos, ferramentas, ou índices de recuperação desencadeiam avaliação antes dessa mudança ir para produção. Isso lhe dá confiança para iterar rapidamente, porque você não está contando com alguns testes pontuais e esperança. Terceiro, mede o que o negócio se importa. Isso inclui métricas técnicas como latência e taxa de sucesso das ferramentas, mas também taxa de conclusão de tarefas, taxa de escalação, custo por decisão, e a parcela de trabalho onde humanos aceitam a recomendação do agente como está.

Quando esses números são visíveis e melhorando, a confiança segue. Equipes que investem aqui cedo descobrem que escolhas de modelos ficam mais simples, não mais difíceis. Uma vez que você pode ver como um modelo se comporta em suas tarefas reais, o debate “qual modelo é melhor?” se torna uma comparação fundamentada em vez de uma discussão filosófica.

Para o Oficial de Conformidade ou Legal: Projete para Auditorias Antes de Enfrentá-las

Se você é responsável por conformidade ou risco legal, IA autônoma provavelmente parece um alvo móvel. Regulações estão evoluindo, e marketing de fornecedores está à frente da clareza regulatória. Você não pode congelar a organização até cada padrão se estabelecer, mas também não pode tolerar “vamos resolver a governança depois.”

Uma abordagem pragmática é trabalhar para trás a partir de uma auditoria. Imagine um regulador ou comitê de auditoria interna perguntando “nessa data, por que esse agente tomou essa ação?” Decida agora que evidências você precisaria para responder essa pergunta claramente e rapidamente. Isso implica algumas escolhas de design. Cada agente deve deixar um rastro: que inputs viu, que ferramentas chamou, que opções considerou, o que escolheu, e que regras aplicou. Para domínios de alto risco como decisões de crédito, subscrição de seguros, e ações relacionadas a emprego, humanos devem permanecer no loop, e o papel do agente deve ser consultivo ou preparatório: coletando dados, organizando evidências, propondo ações. A aprovação do humano se torna parte do registro.

Também implica que nem toda ideia de agente é permitida. Alguns casos de uso vivem solidamente dentro de zonas de risco regulatório até que frameworks e controles amadureçam. Seu trabalho é tornar essas linhas visíveis cedo. Quando você consegue dizer “sim” a alguns agentes com condições claras, “sim depois” a outros com pré-requisitos específicos, e “não” a alguns poucos com lógica clara, você pode se tornar um facilitador em vez de um bloqueador.

Uma das coisas mais úteis que você pode fazer para o resto da equipe de liderança é transformar preocupações abstratas como “precisamos de IA responsável” em uma checklist concreta que pode ser aplicada a cada agente proposto antes do trabalho começar.

Cinco Movimentos para Começar

Se os padrões neste artigo soam familiares, você não está atrasado. Você está onde a maioria das empresas está. O que separa quem avança é a decisão de tratar IA autônoma como um desafio de modelo operacional, não como um experimento tecnológico.

Convoque a sala certa. Reúna seu dono de linha de negócio, CTO, CISO, CDO, líder de IA/Ciência de Dados, e responsável de conformidade — não para uma demonstração, mas para uma sessão de trabalho. Cada pessoa responde uma pergunta: “Qual é a única coisa mais importante bloqueando a gente de colocar um agente em produção em um fluxo de trabalho real?” A partir daí, identifique padrões. Alinhe sobre prioridades comuns.

Escolha um trabalho, não um caso de uso. Identifique uma peça de trabalho concreta com início claro, fim claro, ferramentas definidas, e medida de sucesso que alguém fora da equipe pode verificar. Escreva a descrição de trabalho do agente juntos. Se a sala não conseguir concordar no que significa “concluído”, encontrou o primeiro problema a resolver.

Desenhe seu mapa de prontidão. Tenha seu CDO e CISO esboçar conjuntamente quais domínios de dados e sistemas estão prontos para decisões autônomas hoje, quais precisam de melhorias primeiro, e onde estão as fronteiras rígidas. Esse mapa de uma página pode economizar meses de esforço desperdiçado.

Comprometa-se com uma cadência. Configure uma revisão recorrente semanal ou quinzenal onde a equipe multifuncional examina como o agente se comportou, o que funcionou, o que quebrou, e o que ajustar. Se você só avalia no lançamento, está construindo uma demonstração. Se avalia continuamente, está construindo uma capacidade.

Faça da governança uma entrada de design, não uma porta de lançamento. Decida agora que evidências você precisaria se um auditor perguntasse “por que esse agente fez isso?” seis meses a partir de hoje. Integre isso na arquitetura antes da primeira linha de código ser escrita.

Próximos Passos

As empresas que geram valor real de IA autônoma chegaram lá fazendo o trabalho sem glória: definindo trabalhos com precisão, limitando autonomia deliberadamente, investindo relentlessly em avaliação, e alinhando stakeholders em um modelo operacional compartilhado. Não é tecnologia sofisticada que diferencia — é disciplina organizacional.

Se você está planejando seu primeiro piloto de agentes ou escalando para uma capacidade em toda a empresa, o Centro de Inovação em IA Generativa da AWS está disponível para uma conversa fundamentada em seus fluxos de trabalho, seus dados, e seus resultados de negócio.

Fonte

Agentic AI in the Enterprise Part 2: Guidance by Persona (https://aws.amazon.com/blogs/machine-learning/agentic-ai-in-the-enterprise-part-2-guidance-by-persona/)

March 17, 2026
CloudTroop Weekly #003 — 2026-w11
CloudTroop Weekly #003 — 2026-w11

17 de março de 2026
Resumo da Semana

A semana foi dominada por dois eixos que se reforçam: IA agentica ganhando maturidade operacional e governança cloud ficando mais granular. No Bedrock, políticas Cedar permitem controle determinístico sobre agentes, enquanto novas métricas nativas no CloudWatch eliminam instrumentação manual para inferência. No lado de infraestrutura, CDK Mixins chegou a produção e AMI Lineage fecha uma lacuna séria de rastreabilidade. O recado é claro: IA em produção exige as mesmas disciplinas de governança que qualquer workload crítico. Quem ainda trata agentes como protótipos vai acumular dívida técnica e de compliance.

O que muda na prática

Agentes de IA no Bedrock agora podem ter limites de segurança enforçados por políticas Cedar — lógica do modelo não é mais o único controle, o que muda o critério de aprovação em ambientes regulados.

CDK Mixins em produção permite aplicar abstrações de segurança e compliance a construtos existentes sem reescrita — times de plataforma podem padronizar múltiplos projetos de forma retroativa.

Novas métricas TimeToFirstToken e EstimatedTPMQuotaUsage no CloudWatch entregam visibilidade de latência e cota de LLMs sem custo extra — SREs podem configurar alertas nativos e aposentar soluções caseiras de monitoramento.

Ações da semana

Ative as novas métricas do Bedrock no CloudWatch (TimeToFirstToken e EstimatedTPMQuotaUsage) e crie um alarme de cota para qualquer workload de inferência que já esteja em produção.

Se você mantém bibliotecas de construtos CDK, avalie um Mixin de segurança como prova de conceito — a documentação oficial já cobre o padrão e o esforço inicial é baixo.
Top 10 da Semana

1

Agentes de IA Seguros com Políticas no Amazon Bedrock AgentCore

Permite enforçar limites de segurança determinísticos em agentes de IA via políticas Cedar, essencial para setores regulados que não podem depender apenas da lógica do modelo.

Para quem: Arquitetos de segurança e engenheiros que desenvolvem ou governam agentes de IA em ambientes corporativos.

Segurança IA

2

Operacionalizando IA Agentica: Guia Prático para Stakeholders

Endereça o principal gargalo real de projetos de IA agentica — execução e alinhamento organizacional — não a tecnologia em si.

Para quem: Tech leads, arquitetos e gestores que estão avaliando ou iniciando projetos de IA agentica em suas empresas.

IA Agentica

3

AWS CDK Mixins agora disponível para produção

Permite adicionar abstrações reutilizáveis de segurança e compliance a qualquer construto CDK existente sem reescrever infraestrutura, acelerando padronização em larga escala.

Para quem: Engenheiros de plataforma e DevOps que mantêm bibliotecas de construtos CDK ou precisam aplicar políticas de conformidade em múltiplos projetos.

IaC

4

Novas Métricas CloudWatch para Inferência no Amazon Bedrock

TimeToFirstToken e EstimatedTPMQuotaUsage oferecem visibilidade operacional nativa para latência e quota de LLMs sem custo adicional, eliminando instrumentação manual.

Para quem: Engenheiros de MLOps e SREs responsáveis por monitorar e otimizar cargas de inferência em produção no Bedrock.

Observabilidade IA

5

SAM Kiro Power: Desenvolvimento Serverless Assistido por IA

Integra o SAM com desenvolvimento assistido por IA no Kiro, permitindo construir e implantar aplicações serverless seguindo boas práticas desde o início sem sair do ambiente local.

Para quem: Desenvolvedores serverless que querem acelerar o ciclo de desenvolvimento e adotar boas práticas de forma automatizada.

Serverless DevEx

6

P-EAGLE: Inferência de LLM até 1,69× mais rápida no vLLM

Reduz latência de inferência de LLMs em produção com decodificação especulativa paralela, disponível nativamente no vLLM 0.16.0 sem mudanças complexas de arquitetura.

Para quem: Engenheiros de ML e MLOps que operam LLMs em produção e buscam reduzir latência e custo de inferência.

Otimização LLM

7

Governança de AMIs com AMI Lineage na AWS

Rastrear a linhagem completa de AMIs com Neptune e serviços nativos resolve um gap crítico de governança e segurança no ciclo de vida de imagens de máquinas virtuais.

Para quem: Engenheiros de segurança e equipes de plataforma responsáveis por governança de imagens e conformidade em ambientes multi-conta.

Governança Segurança

8

AWS Private CA Connector para SCEP agora suporta PrivateLink

Permite gerenciamento de certificados SCEP inteiramente dentro da VPC, atendendo requisitos de compliance que proíbem tráfego de PKI pela internet pública.

Para quem: Engenheiros de segurança e arquitetos de rede que gerenciam PKI privada em ambientes com requisitos rígidos de isolamento de rede.

PKI Networking

9

OpenSearch UI agora suporta acesso entre múltiplas contas AWS

Elimina a necessidade de replicar dados ou alternar endpoints para consultar domínios OpenSearch em diferentes contas, simplificando operações multi-conta.

Para quem: Engenheiros de dados e operações que gerenciam ambientes multi-conta e precisam de visibilidade centralizada de logs e métricas.

Multi-conta Dados

10

Bedrock AgentCore Memory: Notificações em Tempo Real para LTM

Elimina polling constante em memória de longo prazo de agentes, permitindo automação de fluxos e auditoria de forma reativa e eficiente.

Para quem: Desenvolvedores que constroem agentes de IA com memória persistente e precisam reagir a mudanças de estado em tempo real.

IA Agentica

Patrocínio

Quer patrocinar a CloudTroop Weekly? Entre em contato

Ver todas as edições →
March 17, 2026
CloudTroop Weekly #002 — 2026-w10
CloudTroop Weekly #002 — 2026-w10

16 de março de 2026
Resumo da Semana

A semana foi dominada por segurança e governança de agentes de IA na AWS. Dois lançamentos diretos ao ponto: IAM para servidores MCP e políticas nativas no Bedrock AgentCore permitem controlar o que agentes de IA podem fazer sem alterar código. No lado operacional, erros de acesso negado agora apontam o ARN da política bloqueante, cortando horas de troubleshooting. Atenção ao bolso: VPC Encryption Controls começou a ser cobrado em março. No geral, a AWS está consolidando uma camada de governança específica para IA em produção.

O que muda na prática

Agentes de IA na AWS agora têm controle de acesso granular via IAM em servidores MCP e políticas no Bedrock AgentCore — governança sem mexer no código da aplicação.

Erros de acesso negado IAM passam a exibir o ARN da política bloqueante, eliminando a caça ao culpado no troubleshooting de permissões.

VPC Encryption Controls saiu do preview gratuito e entrou em cobrança a partir de março/2026 — ambientes que habilitaram o recurso já estão gerando custo.

Ações da semana

Verifique agora se algum ambiente habilitou VPC Encryption Controls durante o preview e estime o impacto no orçamento antes do fechamento do mês.

Se você opera agentes de IA com Bedrock, revise as políticas do AgentCore e avalie aplicar IAM nos servidores MCP para fechar o gap de segurança em produção.
Top 10 da Semana

1

IAM em Servidores MCP: Controle de Acesso para Agentes de IA

Define como aplicar políticas IAM a agentes de IA via MCP, resolvendo um gap crítico de segurança em arquiteturas agenticas modernas.

Para quem: Arquitetos de segurança e engenheiros que constroem ou operam sistemas com agentes de IA na AWS.

Segurança IA

2

Policy no Bedrock AgentCore: controle granular para agentes de IA

Permite que equipes de segurança governem interações de agentes de IA sem tocar no código da aplicação, separando responsabilidades de forma prática.

Para quem: Times de segurança e plataforma que precisam governar agentes de IA em produção.

Governança IA

3

Erros de Acesso Negado agora mostram ARN da política bloqueante

Reduz drasticamente o tempo de diagnóstico de problemas de permissão IAM ao apontar diretamente qual política está causando o bloqueio.

Para quem: Desenvolvedores, SREs e administradores de nuvem que lidam frequentemente com troubleshooting de permissões AWS.

IAM Produtividade

4

IA Generativa Segura: Melhores Práticas com Bedrock Guardrails

Oferece estratégias concretas para equilibrar segurança e desempenho em aplicações GenAI em produção, incluindo filtros multi-turn.

Para quem: Engenheiros e arquitetos que desenvolvem ou operam aplicações de IA generativa com Amazon Bedrock.

Segurança GenAI

5

AWS Shield detecta configurações incorretas de rede via Security Hub

Unifica detecção de vulnerabilidades de rede e recomendações de correção no Security Hub, reduzindo superfície de ataque por misconfiguration.

Para quem: Engenheiros de segurança e times de operações responsáveis pela postura de segurança de rede na AWS.

Segurança Rede

6

VPC Encryption Controls passa a ser cobrado a partir de março/2026

O fim do preview gratuito impacta diretamente o custo de ambientes que habilitaram o recurso, exigindo revisão de orçamento imediata.

Para quem: FinOps, arquitetos de rede e times de segurança que habilitaram controles de criptografia em VPC durante o preview.

Custos Segurança

7

Nova Forge: fine-tuning especializado sem esquecimento catastrófico

Resolve um dos maiores desafios práticos de customização de LLMs ao mesclar dados proprietários com dados gerais durante o fine-tuning.

Para quem: Cientistas de dados e engenheiros de ML que precisam especializar modelos de fundação para casos de uso corporativos.

Fine-tuning LLM

8

Aprovação Multiparte AWS agora valida equipes e aprovadores ativos

Permite testar proativamente se fluxos de aprovação críticos estão funcionais, evitando falhas de governança em momentos de incidente.

Para quem: Times de compliance, segurança e administradores de contas AWS que usam aprovação multiparte para operações sensíveis.

Governança Compliance

9

AWS Config suporta 30 novos recursos incluindo Bedrock e Cognito

Amplia a cobertura de monitoramento de conformidade para serviços críticos de IA e identidade que antes ficavam fora do inventário automatizado.

Para quem: Engenheiros de segurança e compliance que usam AWS Config para auditoria e governança de recursos.

Compliance Monitoramento

10

Elastic Beanstalk ganha análise de ambientes com IA via Bedrock

Reduz o tempo de resolução de problemas operacionais ao usar IA para correlacionar logs, eventos e saúde de instâncias automaticamente.

Para quem: Desenvolvedores e times de operações que ainda utilizam Elastic Beanstalk em ambientes de produção.

AIOps Operações

Patrocínio

Quer patrocinar a CloudTroop Weekly? Entre em contato

Ver todas as edições →
March 16, 2026
CloudTroop Weekly #001 — 2026-w09
CloudTroop Weekly #001 — 2026-w09

16 de março de 2026
Resumo da Semana

A semana foi dominada por três frentes que se reforçam: IA entrando de vez nas operações de segurança, otimização agressiva de custo em inferência de modelos e automação de resposta a eventos na nuvem. Pentests automatizados com agentes reduzem ciclos de semanas para dias. Técnicas como Multi-LoRA e LMCache tornam viável servir múltiplos modelos customizados sem multiplicar infraestrutura. No lado operacional, Network Firewall com EventBridge e Security Hub Extended consolidam ferramentas e eliminam trabalho manual. Quem ainda gerencia segurança e IA de forma fragmentada está acumulando dívida operacional.

O que muda na prática

Testes de penetração passam a ser candidatos à automação com agentes de IA: o ciclo de avaliação de vulnerabilidades em ambientes cloud pode ser reduzido drasticamente, mudando a frequência e o custo de execução de red team.

Servir múltiplos modelos fine-tuned em produção ficou mais barato: Multi-LoRA no SageMaker permite até 5 modelos customizados em 1 GPU, tornando viável a personalização por cliente ou caso de uso sem escalar infraestrutura proporcionalmente.

Resposta a incidentes de rede pode ser totalmente orientada a eventos: a integração do Network Firewall com EventBridge elimina polling e abre caminho para automação de remediação em tempo real, mudando o padrão de operação de firewalls na AWS.

Ações da semana

Se você opera múltiplas ferramentas de segurança na AWS, avalie o Security Hub Extended esta semana: mapeie quais parceiros já estão disponíveis no seu contexto e estime o ganho de consolidar faturamento e visibilidade em um único painel.

Se você tem pipelines de inferência com Bedrock, teste a migração para a Converse API no batch inference: a padronização reduz acoplamento com modelos específicos e é uma mudança de baixo risco com ganho imediato de flexibilidade.
Top 10 da Semana

1

AWS Security Hub Extended: parceiros curados com pagamento por uso

Consolida soluções de segurança de parceiros em uma experiência unificada com faturamento único, reduzindo complexidade operacional e custo de gestão de segurança multi-ferramenta.

Para quem: Arquitetos de segurança e times de compliance que gerenciam múltiplas ferramentas de segurança na AWS.

Segurança, Compliance

2

IA automatiza pentests: arquitetura multi-agente reduz semanas para dias

Demonstra como IA generativa pode transformar radicalmente o ciclo de testes de segurança, com impacto direto em velocidade de detecção de vulnerabilidades e custo operacional.

Para quem: Engenheiros de segurança, red teams e arquitetos que precisam escalar avaliações de segurança em ambientes cloud.

Segurança, IA

3

AWS Security Agent: pentests em VPCs compartilhadas entre contas

Permite avaliações de segurança abrangentes em ambientes multi-conta sem fricção, cobrindo um gap crítico em organizações com arquiteturas de VPC compartilhada.

Para quem: Times de segurança e engenheiros de plataforma que operam ambientes AWS Organizations com VPCs compartilhadas.

Segurança, Multi-conta

4

AWS Network Firewall integra EventBridge para alertas em tempo real

Habilita automação de resposta a incidentes de rede em tempo real, eliminando polling manual e acelerando workflows de detecção e resposta.

Para quem: Engenheiros de segurança de rede e times de operações que gerenciam firewalls e precisam de automação de resposta a eventos.

Segurança, Automação

5

Bedrock batch inference agora suporta Converse API unificada

Formato único e independente de modelo para processamento em lote simplifica troca de modelos e reduz retrabalho de código em pipelines de IA generativa.

Para quem: Engenheiros de ML e desenvolvedores que constroem pipelines de processamento em lote com múltiplos modelos no Bedrock.

IA, Bedrock

6

LMI Container: latência de inferência reduzida em até 54% com LMCache e EAGLE

Reduções concretas de custo e latência em inferência de LLMs com contexto longo são diretamente aplicáveis a cargas de produção que usam RAG ou conversas longas.

Para quem: Engenheiros de ML e arquitetos de plataforma de IA que otimizam custos e performance de inferência de grandes modelos.

IA, Inferência

7

vLLM no SageMaker: 5 modelos fine-tuned compartilhando 1 GPU com Multi-LoRA

Reduz drasticamente o custo de servir múltiplos modelos customizados, tornando viável a personalização de LLMs para diferentes clientes ou casos de uso sem multiplicar infraestrutura.

Para quem: Engenheiros de ML e times de produto que precisam servir múltiplos modelos fine-tuned com eficiência de custo.

IA, Otimização

8

IAM Policy Autopilot como Kiro Power: geração de políticas no IDE

Acelera a criação de políticas IAM com least privilege diretamente no ambiente de desenvolvimento, reduzindo erros de permissão e tempo de configuração.

Para quem: Desenvolvedores e engenheiros DevOps que criam e gerenciam políticas IAM frequentemente e buscam produtividade com segurança.

IAM, Produtividade

9

Amazon Q Developer visualiza recursos e custos com IA generativa no Console

Torna visível o impacto financeiro e operacional de recursos cloud diretamente no console, acelerando decisões de otimização de custos sem ferramentas externas.

Para quem: Engenheiros cloud e gestores de FinOps que monitoram custos e inventário de recursos AWS no dia a dia.

FinOps, Produtividade

10

AWS conclui auditoria ISO 42001:2023 para IA responsável sem achados

Certificação independente de governança de IA é requisito crescente em contratos enterprise e regulações setoriais, e a validação da AWS facilita compliance de clientes.

Para quem: Profissionais de compliance, GRC e arquitetos que precisam demonstrar governança de IA para clientes ou reguladores.

Compliance, IA

Patrocínio

Quer patrocinar a CloudTroop Weekly? Entre em contato

Ver todas as edições →
March 16, 2026
IAM Identity Center: Expandindo o Acesso Corporativo Através de Múltiplas Regiões da AWS
Replicação de Identidades Corporativas em Múltiplas Regiões

O IAM Identity Center, serviço da AWS para gerenciamento de acesso corporativo, recebeu uma expansão significativa: agora suporta replicação em múltiplas regiões geográficas. Anteriormente, o portal de acesso da AWS estava disponível apenas em uma região. Com essa novidade, as organizações podem configurar regiões adicionais, garantindo que mesmo em caso de problemas na região primária, os usuários continuem tendo acesso através de um endpoint de portal alternativo.

Essa capacidade de replicação abre novas possibilidades para empresas que precisam atender usuários distribuídos globalmente ou que têm requisitos rigorosos de soberania de dados. Ao implantar o Identity Center em regiões mais próximas aos seus usuários, as organizações reduzem a latência nas operações de autenticação e autorização. Além disso, mantêm a administração centralizada: todas as configurações de nível de instância continuam sendo gerenciadas pela região primária.

Alinhamento com Aplicações Gerenciadas da AWS

A replicação multi-região também habilita a implantação de aplicações gerenciadas da AWS em regiões adicionais. Serviços como o AWS Deadline Cloud agora podem ser configurados em regiões secundárias com suporte completo ao Identity Center local. Essa aproximação reduz a latência nas operações e facilita o cumprimento de regulamentações regionais de conformidade.

Pré-Requisitos e Limitações Importantes

Antes de Começar

Antes de habilitar o suporte multi-região, algumas confirmações são necessárias. Primeiro, as aplicações gerenciadas já implantadas devem suportar o Identity Center configurado com chave KMS gerenciada pelo cliente. Além disso, todas as futuras aplicações que serão implantadas em regiões adicionais devem também oferecer esse suporte.

A organização deve estar utilizando uma instância de organização do Identity Center conectada a um provedor de identidade externo, como Okta ou Microsoft Entra ID. Tanto a região primária quanto as regiões adicionais precisam ser regiões comerciais habilitadas por padrão.

Restrições a Considerar

Existem limitações técnicas que precisam ser consideradas. Instâncias de conta do Identity Center não suportam replicação multi-região. A sincronização através de Microsoft Active Directory ou do diretório Identity Center como fonte de identidade não é compatível com essa funcionalidade. Regiões AWS de participação opcional não estão suportadas.

O portal de acesso em regiões adicionais não oferece suporte a alias customizado, ou seja, subdomínios escolhidos pela organização. O acesso a contas AWS através de regiões adicionais funciona apenas com permissões já provisionadas; novas atribuições de permission sets e filiações de grupos devem ser gerenciadas exclusivamente na região primária e são replicadas automaticamente.

Configuração Prática da Replicação Multi-Região

Criação de Chaves KMS Multi-Região

O processo começa com a configuração de chaves KMS gerenciadas pelo cliente que funcionem em múltiplas regiões. O Identity Center utiliza essas chaves para criptografar dados de identidade, como atributos de usuários. Como o mesmo material de chave precisa estar disponível em cada região, é necessário criar uma chave multi-região a partir da conta de gerenciamento da AWS Organizations.

Cada chave AWS KMS tem custo associado de uso e armazenamento. Consulte a página de preços do AWS KMS para detalhes sobre a estrutura de custos. Após criar a chave na região primária, replique-a para cada região adicional onde o Identity Center será replicado. As chaves de réplica herdam automaticamente a política de chave da chave primária, mas modificações futuras à política devem ser aplicadas manualmente a cada réplica.

Adição de Regiões Adicionais

Uma vez que a replicação de chaves esteja completa, o próximo passo é adicionar regiões adicionais através do console do Identity Center. Navegue até a seção de Configurações, escolha a opção de adicionar região e selecione a região desejada a partir da lista. O console exibe apenas regiões comerciais habilitadas por padrão onde a chave KMS foi previamente replicada.

Após adicionar uma região, o Identity Center exibe um status de “Replicando” enquanto sincroniza identidades de força de trabalho, configurações e metadados para o novo local. Esse processo inicial leva entre 15 e 30 minutos, dependendo do tamanho da instância. Mudanças subsequentes são replicadas em segundos.

Quando a replicação se completa, o status muda para “Replicado” e os endpoints do Identity Center na região adicional ficam ativos. Isso significa que os usuários podem acessar contas AWS através dos portais de acesso de ambas as regiões.

Atualização da Configuração do Provedor de Identidade

Sincronização de Endpoints SAML

Com o Identity Center replicado para regiões adicionais, é necessário atualizar a configuração do provedor de identidade externo. O Identity Center oferece suporte a dois fluxos de autenticação: aquele em que o usuário inicia a autenticação a partir do portal de acesso ou de uma aplicação gerenciada (inicializado pelo provedor de serviços), e aquele em que o usuário começa no portal do provedor de identidade (inicializado pelo IdP).

Na autenticação inicializada pelo provedor de serviços, quando um usuário tenta se autenticar, o Identity Center o redireciona para a página de autenticação do seu provedor de identidade. Após autenticação bem-sucedida, a resposta é enviada para o endpoint regional de serviço de consumidor de asserções SAML do Identity Center. O endpoint em cada região possui uma URL diferente.

Para que a autenticação seja bem-sucedida em regiões adicionais, é necessário adicionar o novo endpoint regional à configuração do provedor de identidade. Na aplicação Identity Center dentro do IdP externo, adicione a URL ACS da região adicional para que a aplicação contenha as URLs ACS de ambas as regiões. Mantenha a URL existente como a primeira da lista, pois o provedor de identidade a utiliza como destino de redirecionamento padrão para autenticações iniciadas pelo IdP.

Aplicações de Bookmark para Portais Regionais

Como usuários agora precisam acessar portais específicos de região, recomenda-se criar uma aplicação de bookmark no provedor de identidade. Embora os usuários possam fazer bookmark direto da URL no navegador, oferecer uma aplicação de bookmark torna a região adicional descoberta no portal do IdP sem exigir que cada usuário salve manualmente uma URL.

Essa aplicação de bookmark funciona como um atalho de navegador e contém apenas a URL do portal de acesso da região adicional. Os usuários podem acessar a aplicação pelo portal do IdP para alcançar o portal de acesso específico de sua região. Após criar a aplicação, conceda aos grupos e usuários permissão para acessá-la no IdP externo.

Testes da Configuração Multi-Região

Acesso a Contas AWS pela Região Adicional

As atribuições de permission sets que existem na região primária são replicadas automaticamente para regiões adicionais. Isso significa que, em caso de problemas com o Identity Center na região primária, a organização pode usar a região adicional para continuar acessando contas AWS através do portal de acesso.

Para validar o acesso, navegue até o console do Identity Center, vá para Configurações e escolha visualizar as URLs do portal de acesso. Selecione a URL da região adicional, que abrirá o portal em uma nova aba. Confirme que pode visualizar os permission sets atribuídos e acessar as contas AWS desejadas.

Acesso Pela Interface de Linha de Comando

A Interface de Linha de Comando da AWS se conecta a uma região específica do Identity Center para autenticar usuários e obter credenciais. Para clientes utilizando replicação multi-região, recomenda-se criar múltiplos perfis regionais de CLI—um para a região primária e outro para cada região adicional. Perfis separados permitem alternar rapidamente entre regiões durante uma interrupção sem reconfigurações.

Configure dois perfis de CLI adicionando as seguintes configurações ao arquivo ~/.aws/config:
```
[profile ReadOnly]
sso_role_name=ReadOnly
sso_account=<account-Id>
sso_session=us-east-1

[sso-session us-east-1]
sso_region=us-east-1
sso_start_url=https://identitycenter.amazonaws.com/ssoins-<instance-Id>

[profile ReadOnly-additional]
sso_role_name=ReadOnly
sso_account=<account-Id>
sso_session=eu-central-1

[sso-session eu-central-1]
sso_region=eu-central-1
sso_start_url=https://identitycenter.amazonaws.com/ssoins-<instance-Id>
```
Após configurar os perfis, autentique-se em cada endpoint regional do Identity Center independentemente utilizando os comandos aws sso login --profile ReadOnly para a região primária e aws sso login --profile ReadOnly-additional para a região adicional. Cada comando abre uma janela do navegador para o portal de acesso correspondente, onde você completa o fluxo de autenticação.

Implantação de Aplicações Gerenciadas

Para testar a implantação de aplicações em regiões adicionais, navegue até o console da aplicação gerenciada desejada—como AWS Deadline Cloud—e alterne para a região adicional. Siga o assistente de configuração. O Identity Center da região adicional é automaticamente selecionado pelo assistente de configuração da aplicação.

Durante a configuração, selecione os grupos que terão acesso à aplicação, verificando se você é membro de algum deles. Esses grupos foram sincronizados automaticamente a partir do seu provedor de identidade para o Identity Center. Após completar a implantação da aplicação, ela estará configurada para usar as APIs do Identity Center locais da região para autenticação de usuários e acesso a identidades corporativas.

Resiliência e Roteamento Automático

O Identity Center fornece endpoints regionais para o portal de acesso quando a replicação multi-região está habilitada. As organizações podem acessar essas instâncias regionais diretamente ou construir um sistema de redirecionamento que roteia inteligentemente usuários para o endpoint de portal mais próximo disponível, com capacidades de failover automático.

Para uma implementação serverless de failover automático, é possível combinar diversos serviços da AWS: Route 53 para gerenciar roteamento DNS com verificações de integridade, Application Recovery Controller para orquestrar lógica de failover, e Application Load Balancer para realizar redirecionamentos HTTP para os endpoints regionais apropriados do portal de acesso.

Controle de Administração por Região

A região primária funciona como centro de gerenciamento centralizado para configurações em nível de instância, enquanto regiões adicionais oferecem capacidades de gerenciamento de aplicações locais e acesso resiliente a contas AWS. O gerenciamento de aplicações ocorre sempre na região onde a aplicação foi configurada.

O gerenciamento de identidades de força de trabalho, revogação de sessões de usuário e configuração de nível de instância são realizados na região primária. As regiões adicionais oferecem acesso somente leitura para esses aspectos. Atribuições de usuários a aplicações específicas de região, implantação de aplicações SAML e OAuth2 customizadas, e acesso a contas AWS podem ser gerenciados em ambas as regiões, porém de forma independente.

Conclusão

A capacidade de replicar o IAM Identity Center através de múltiplas regiões representa uma evolução importante na estratégia de gerenciamento de identidades da AWS. Organizações que dependem do Identity Center para acesso corporativo agora podem estender essa proteção e funcionalidade a múltiplas regiões geográficas, garantindo resiliência, baixa latência e conformidade com requisitos regionais.

A implementação exige atenção a pré-requisitos técnicos, como a disponibilidade de chaves KMS multi-região e compatibilidade de aplicações. Com essas bases estabelecidas, as organizações ganham a flexibilidade de operações distribuídas mantendo controle centralizado sobre políticas de acesso e configurações de segurança. Para explorar a gama completa de capacidades do Identity Center multi-região, consulte a documentação sobre o uso do IAM Identity Center em múltiplas regiões AWS.

Fonte

Deploy AWS applications and access AWS accounts across multiple Regions with IAM Identity Center (https://aws.amazon.com/blogs/security/deploy-aws-applications-and-access-aws-accounts-across-multiple-regions-with-iam-identity-center/)
March 15, 2026
P-EAGLE: Inferência de LLM Mais Rápida com Decodificação Especulativa Paralela no vLLM
O Desafio da Decodificação Especulativa em LLMs

EAGLE estabeleceu-se como o método de referência para decodificação especulativa na inferência de modelos de linguagem de grande escala (LLM). Sua abordagem inovadora permite gerar múltiplos tokens especulados simultaneamente, reduzindo a latência de forma significativa. Porém, sua estratégia de geração autorregressiva esconde um gargalo crítico: quanto mais tokens são especulados, mais passagens sequenciais pela rede neural o modelo auxiliar precisa realizar. Eventualmente, esse overhead consome os ganhos conquistados.

A AWS identificou essa limitação e desenvolveu P-EAGLE, uma evolução que remove esse teto de desempenho ao gerar todos os K tokens de rascunho em uma única passagem pela rede. O resultado? Até 1,69× de aceleração em relação ao EAGLE-3 vanilla em cenários reais utilizando GPUs NVIDIA B200.

Para começar, basta fazer o download (ou treinar) de uma cabeça de modelo auxiliar compatível com paralelismo e adicionar "parallel_drafting": true à sua configuração de pipeline no vLLM. Modelos P-EAGLE pré-treinados já estão disponíveis no HuggingFace para GPT-OSS 120B, GPT-OSS 20B e Qwen3-Coder 30B.

Como P-EAGLE Funciona

Eliminando o Gargalo Sequencial

EAGLE consegue acelerações de 2–3× sobre decodificação autorregressiva padrão e está amplamente implementado em estruturas de inferência em produção, incluindo vLLM, SGLang e TensorRT-LLM. No entanto, sua abordagem gera tokens especulados de forma sequencial — para produzir K tokens de rascunho, são necessárias K passagens completas pela rede do modelo auxiliar. À medida que esses modelos melhoram sua capacidade de geração, o overhead dessa abordagem se torna cada vez mais significativo: a latência do modelo auxiliar escala linearmente com a profundidade de especulação, limitando agressividade possível.

A Abordagem P-EAGLE

P-EAGLE transforma EAGLE de geração de rascunho autorregressiva para paralela. Em GPUs B200, o método alcança 1,05×–1,69× de aceleração em relação ao EAGLE-3 vanilla no GPT-OSS 20B, testado em MT-Bench, HumanEval e SpeedBench. Agora integrado ao vLLM desde a versão 0.16.0, está pronto para acelerar implantações no mundo real.

Imagem original — fonte: Aws

Dois Passos Fundamentais

Passo 1: Prefenchimento. O modelo alvo processa o prompt e gera um novo token, como faria durante inferência normal. Durante esse processo, P-EAGLE captura os estados ocultos internos do modelo: h_prompt para cada posição do prompt e h_context para o token recém-gerado. Esses estados codificam o que o modelo alvo “compreende” em cada posição e guiam as predições do modelo auxiliar. Este passo é idêntico ao EAGLE autorregressivo.

Passo 2: Modelo Auxiliar P-EAGLE. O modelo auxiliar constrói entradas para cada posição em paralelo. Cada entrada consiste em um embedding de token concatenado a um estado oculto. Para posições do prompt, cada embedding de token do prompt (emb(p)) é pareado com seu correspondente h_prompt do modelo alvo. Seguindo a mesma convenção do EAGLE autorregressivo, as posições são deslocadas por uma unidade: a posição i recebe o token e estado oculto da posição i-1, permitindo que ela prediga o token na posição i.

Para a posição 1 (Predição do Próximo Token — NTP), a entrada pareia o embedding do token recém-gerado (emb(new)) com h_context. Essa posição funciona de forma idêntica ao EAGLE autorregressivo padrão.

Para as posições 2 a K (Predição de Múltiplos Tokens — MTP), as entradas necessárias — embedding de token e estado oculto — ainda não existem. P-EAGLE preenche esses espaços com dois parâmetros treináveis: um embedding de máscara compartilhado (emb(mask)) e um estado oculto compartilhado (h_shared). Esses são vetores fixos aprendidos durante o treinamento que atuam como placeholders neutros. Todas as posições passam simultaneamente por N camadas de transformador e, em seguida, pela cabeça do modelo de linguagem para predizer tokens de rascunho t1, t2, t3 e t4 em uma única passagem.

Treinamento em Sequências Longas

Modelos de raciocínio moderno geram saídas extensas. No conjunto de dados UltraChat, GPT-OSS 120B produz sequências (incluindo prompts) com comprimento mediano de 3.891 tokens e percentil 90 de 10.800 tokens. Modelos auxiliares devem ser treinados em comprimentos de contexto correspondentes para serem efetivos na inferência.

Um desafio-chave é que a decodificação especulativa paralela amplifica requisitos de memória durante o treinamento. Treinar K grupos paralelos em uma sequência de comprimento N cria N × K posições totais. Com N = 8.192 e K = 8, um único exemplo de treinamento contém 65.536 posições. Atenção requer que cada posição atenda a todas as posições válidas — 65K × 65K significa mais de 4 bilhões de elementos, consumindo 8GB em bf16.

Amostragem de posições reduz memória saltando aleatoriamente posições, mas pular de forma muito agressiva degrada a qualidade do rascunho. Acumulação de gradientes é a solução padrão para treinamento com memória limitada, mas divide entre diferentes exemplos de treinamento. Quando uma sequência única excede a memória disponível, não há nada para dividir.

P-EAGLE introduz um algoritmo de particionamento de sequência para divisão intra-sequência. O algoritmo divide a sequência de posições N × K em pedaços contíguos, mantém dependências de atenção corretas através das fronteiras dos pedaços e acumula gradientes através de pedaços da mesma sequência. Para detalhes técnicos, consulte o paper de P-EAGLE.

Integração no vLLM

Desafios da Decodificação Especulativa Paralela

Em muitas configurações de decodificação especulativa, rascunho e verificação compartilham o mesmo layout de token por requisição. Isso é geralmente verdadeiro para EAGLE: o modelo auxiliar consome uma janela que já corresponde ao que o verificador checará — K tokens especulados e um token adicional amostrado.

Decodificação paralela quebra essa consistência. Para predizer K tokens em uma passagem do modelo auxiliar, placeholders de MÁSCARA são anexados (por exemplo, [token, MÁSCARA, MÁSCARA, …]). Essas posições extras existem apenas para rascunho, então a forma do lote de rascunho não corresponde mais à forma do lote de verificação. Como metadados de verificação não podem ser reutilizados, o metadata do lote deve ser reconstruído. Os IDs de token de entrada, estados ocultos e posições são expandidos para inserir espaços para tokens/embeddings de máscara, posições por requisição são incrementadas, então o mapeamento de slot e índices de início por requisição são recomputados a partir das posições atualizadas.

Kernel Triton Otimizado

Para compensar o overhead da reconstrução de metadata do lote, um kernel Triton fundido popula o lote de entrada do modelo auxiliar na GPU copiando e expandindo o lote do modelo alvo. Em uma única passagem, o kernel copia os IDs de token e posições anteriores do lote alvo para novos slots de destino, insere o token bônus por requisição amostrado pelo modelo alvo e preenche os slots adicionais de decodificação paralela com um ID de token MÁSCARA especial. Por fim, gera metadata leve: máscara de token rejeitado, máscara de token mascarado para slots de decodificação paralela, índices de novo-token para amostragem de tokens de rascunho e mapeamento de estado oculto. Essa lógica, de outra forma, demandaria muitas operações GPU (cópia/espalhamento + inserção + preenchimento + máscara + remapeamento). Fundindo em um kernel único reduz overhead de lançamento e tráfego extra de memória, mantendo a configuração de rascunho eficiente.

Gestão de Estados Ocultos

Para métodos baseados em EAGLE que passam estados ocultos ao modelo auxiliar, decodificação paralela trata esse preenchimento separadamente. Como estados ocultos são significativamente maiores que o resto do lote de entrada, o trabalho é dividido: o kernel Triton produz um mapeamento, e um kernel de cópia dedicado transmite o placeholder de estado oculto aprendido para slots de token mascarado.
```
# Copiar estados ocultos alvo para suas novas posições
self.hidden_states[out_hidden_state_mapping] = target_hidden_states

# Preencher posições mascaradas com o estado oculto aprendido de Decodificação Paralela
mask = self.is_masked_token_mask[:total_num_output_tokens]
torch.where(
    mask.unsqueeze(1),
    self.parallel_drafting_hidden_state_tensor,
    self.hidden_states[:total_num_output_tokens],
    out=self.hidden_states[:total_num_output_tokens],
)
```
O parallel_drafting_hidden_state_tensor é carregado do buffer mask_hidden do modelo, uma representação aprendida que informa ao modelo que essas posições devem predizer tokens futuros. Para mapeamento de slot de cache KV, tokens válidos recebem atribuição de slot normal enquanto tokens rejeitados são mapeados para PADDING_SLOT_ID (-1) para evitar escritas spurias em cache. Para grafos CUDA, o intervalo de captura é estendido por K × max_num_seqs para acomodar o lote de rascunho maior introduzido pela decodificação paralela.

Resultados de Benchmark

P-EAGLE foi treinado em GPT-OSS-20B e avaliado em três benchmarks: MT-Bench para instrução multi-turno, SPEED-Bench para geração de código longo e HumanEval para síntese de código em nível de função. P-EAGLE entrega 55–69% de throughput superior em baixa concorrência (c=1), com ganhos de 5–25% sustentados em alta concorrência (c=64), comparado ao checkpoint público vanilla EAGLE-3.

Imagem original — fonte: Aws

O modelo auxiliar P-EAGLE é um modelo leve de 4 camadas treinado para predizer até 10 tokens em paralelo. Para avaliação de desempenho, profundidades de especulação K ∈ {3, 5, 7} foram testadas em níveis de concorrência C ∈ {1, 2, 4, 8, 16, 32, 64}. P-EAGLE alcança TPS (Tokens Por Segundo) máximo em K=7 em todos os níveis de concorrência. Em contraste, EAGLE-3 vanilla atinge seu TPS máximo em K=3, com profundidade melhorada ocasionalmente deslocando para valores maiores dependendo da concorrência. Esse padrão reflete a vantagem fundamental da decodificação paralela.

Imagem original — fonte: Aws

P-EAGLE gera todos os K tokens de rascunho em uma única passagem, permitindo que se beneficie de especulação mais profunda sem incorrer em overhead sequencial adicional. Rascunhadores autorregressivos, por contraste, devem gerar tokens especulativos passo a passo, o que limita sua capacidade de escalar eficientemente para K maiores.

Imagem original — fonte: Aws

Comprimento de Aceitação Aprimorado

Além de reduzir overhead de rascunho, ganhos de throughput do P-EAGLE também são impulsionados por melhor comprimento de aceitação (AL — do inglês Acceptance Length) — a média de tokens de rascunho aceitos pelo verificador por rodada de especulação. AL maior significa mais do trabalho de rascunho se transforma em saída real, o que impulsiona diretamente OTPS/TPS (Tokens de Saída Por Segundo / Tokens Por Segundo) efetivo.

P-EAGLE alcança consistentemente AL superior ao EAGLE-3 na mesma profundidade de especulação K. Em K=7, P-EAGLE supera EAGLE-3 por 30% em HumanEval (3,94 vs 3,03), 31% em SPEED-Bench (3,38 vs 2,59) e 13% em MT-Bench (3,70 vs 3,27). Notavelmente, P-EAGLE se beneficia mais de especulação mais profunda. De K=3 para K=7, AL do P-EAGLE aumenta 0,92 em HumanEval (3,02 para 3,94), enquanto EAGLE-3 ganha apenas 0,38 (2,65 para 3,03). Essa lacuna crescente em K maior é consistente com decodificação especulativa paralela de passagem única do P-EAGLE, que não incorre em custo adicional de especulação mais profunda.

Como Começar

Configuração Básica

P-EAGLE pode ser ativado com uma mudança simples de configuração na classe SpeculativeConfig:
```
# vllm/config/speculative.py
parallel_drafting: bool = True
```
Aqui está um comando de exemplo no vLLM para ativar decodificação paralela com P-EAGLE como modelo auxiliar:
```
vllm serve openai/gpt-oss-20b \
  --speculative-config '{"method": "eagle3", "model": "amazon/gpt-oss-20b-p-eagle", "num_speculative_tokens": 5, "parallel_drafting": true}'
```
Executando Benchmarks

Após lançar o servidor, execute benchmarks com vllm bench serve:
```
#MT-Bench
export MODEL="openai/gpt-oss-20b"
export BASE_URL="http://localhost:8000"
vllm bench serve \
  --dataset-name hf \
  --dataset-path philschmid/mt-bench \
  --num-prompts 80 \
  --max-concurrency 1 \
  --model $MODEL \
  --base-url $BASE_URL \
  --temperature 0.0 \
  --hf-output-len 2048

#HumanEval
# Baixar dataset HumanEval openai/openai_humaneval
vllm bench serve \
  --dataset-name custom \
  --dataset-path  \
  --num-prompts 164 \
  --max-concurrency 1 \
  --model $MODEL \
  --base-url $BASE_URL \
  --temperature 0.0 \
  --custom-output-len 2048
```
Nota Importante: Servir GPT-OSS-20B com rascunhadores EAGLE atualmente requer um patch vLLM de uma linha (PR#36684). Aplique-o antes de lançar. Essa correção deve chegar em uma versão próxima do vLLM.

Recursos Disponíveis

Para explorar P-EAGLE, a AWS disponibilizou:
- Paper ArXiv com detalhes técnicos completos
- Modelos pré-treinados no HuggingFace: GPT-OSS 120B, GPT-OSS 20B, Qwen3-Coder-30B-A3B-Instruct
- Integração vLLM a partir da versão 0.16.0 com Unified Parallel Drafting
- Discussões técnicas: RFC e PR no repositório vLLM-Speculators
Conclusão

P-EAGLE remove o gargalo sequencial da decodificação especulativa, entregando até 1,69× de aceleração em relação ao EAGLE-3 vanilla em cargas reais. Ao desacoplar contagem de rascunho de contagem de passagens diretas, agora é possível explorar arquiteturas de rascunho maiores, que podem até permitir taxas de aceitação aumentadas comparadas a baselines de camada única.

A implementação lida com cuidado com complexidades de preparação de entrada, gerenciamento de metadata de atenção e mapeamento de slot de cache KV através de kernels fundidos escritos manualmente. Embora requeira modelos especialmente treinados, os benefícios de desempenho a tornam uma adição valiosa às capacidades de decodificação especulativa do vLLM. Conforme mais modelos treinados em paralelo se tornem disponíveis, espera-se que essa abordagem se torne a escolha preferida para implantações de LLM em produção.

Para começar agora: baixe uma cabeça P-EAGLE pré-treinada do HuggingFace, configure "parallel_drafting": true em seu config vLLM para qualquer um dos modelos suportados e veja a aceleração em ação.

Fonte

P-EAGLE: Faster LLM inference with Parallel Speculative Decoding in vLLM (https://aws.amazon.com/blogs/machine-learning/p-eagle-faster-llm-inference-with-parallel-speculative-decoding-in-vllm/)
March 14, 2026
Acelerando o desenvolvimento serverless com o novo SAM Kiro Power

Uma nova abordagem para desenvolvimento serverless

A AWS anunciou o lançamento do SAM Kiro Power, uma extensão que traz expertise em desenvolvimento serverless para o ambiente de desenvolvimento assistido por inteligência artificial do Kiro. Essa ferramenta permite que desenvolvedores construam, implantem e gerenciem aplicações serverless com assistência de agente de IA, tudo diretamente no ambiente local.

O Serverless Application Model (SAM) é um framework de código aberto que simplifica a criação de aplicações serverless na AWS. Com essa integração, o SAM Kiro Power carrega dinamicamente orientações e expertise específicas que o agente de IA precisa para construir essas aplicações, tornando o processo mais intuitivo e guiado.

Capacidades e funcionalidades

O SAM Kiro Power oferece suporte completo ao ciclo de vida do desenvolvimento serverless. Ele auxilia na inicialização de projetos SAM, no build e deploy de aplicações para a AWS, além de permitir testes locais de funções Lambda com feedback em tempo real.

A ferramenta suporta padrões dirigidos por eventos, incluindo integração com Amazon EventBridge, Amazon Managed Streaming para Apache Kafka (MSK), Amazon Kinesis, Amazon DynamoDB Streams e Amazon Simple Queue Service (SQS). Além disso, ela aborda boas práticas de segurança, com orientações sobre políticas IAM.

Boas práticas desde o início

Uma característica importante do SAM Kiro Power é que ele impõe automaticamente o uso de recursos SAM e Powertools para AWS Lambda, garantindo observabilidade e logging estruturado por padrão. Essa abordagem elimina a necessidade de retrofit de boas práticas, pois elas já estão incorporadas desde o início do desenvolvimento.

Essa orientação integrada acelera a jornada desde o conceito até a produção, independentemente do tipo de aplicação: desde websites estáticos com backends de API, passando por microsserviços dirigidos por eventos, até aplicações full-stack completas.

Acesso e documentação

O SAM Kiro Power está disponível hoje com instalação em um clique tanto na IDE do Kiro quanto na página de Poderes do Kiro. Desenvolvedores interessados podem explorar o código-fonte no repositório GitHub ou consultar o guia do desenvolvedor para aprender mais detalhes sobre o SAM.

Fonte

Accelerate serverless application development with new SAM Kiro power (https://aws.amazon.com/about-aws/whats-new/2026/03/aws-sam-kiro-power/)

March 14, 2026

Visibilidade Operacional para Cargas de Inferência no Amazon Bedrock com Novas Métricas do CloudWatch

Monitorando Cargas de IA Generativa em Escala

À medida que organizações expandem suas cargas de trabalho de inteligência artificial generativa no Amazon Bedrock, compreender o desempenho da inferência e o consumo de recursos torna-se essencial para manter a confiabilidade operacional. Equipes que executam aplicações sensíveis à latência precisam entender com que rapidez os modelos começam a gerar respostas. Aquelas que gerenciam cargas de alto throughput precisam acompanhar como suas requisições consomem quota para evitar limitações inesperadas.

Até então, obter essa visibilidade exigia instrumentação customizada no lado do cliente ou investigação reativa após problemas ocorrerem. A AWS anunciou duas novas métricas do CloudWatch para o Amazon Bedrock: TimeToFirstToken e EstimatedTPMQuotaUsage. Essas métricas oferecem visibilidade no lado do servidor sobre latência de streaming e consumo de quota, são emitidas automaticamente para cada requisição de inferência bem-sucedida, não geram custos adicionais, não requerem mudanças nas APIs e estão disponíveis agora no namespace AWS/Bedrock do CloudWatch.

O Fundamento: Métricas Existentes do Bedrock

O Amazon Bedrock já fornecia um conjunto de métricas do CloudWatch para monitorar cargas de inferência. O namespace AWS/Bedrock incluía métricas como Invocations, InvocationLatency, InvocationClientErrors, InvocationThrottles, InputTokenCount e OutputTokenCount. Essas métricas ofereciam visibilidade sobre volume de requisições, latência fim-a-fim, taxas de erro e uso de tokens. Estavam disponíveis nas APIs Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream, podendo ser filtradas pela dimensão ModelId.

Embora essas métricas fornecessem uma base operacional sólida, deixavam duas lacunas importantes: não capturavam a rapidez com que uma resposta em streaming começava (tempo até o primeiro token) e não refletiam a quota efetivamente consumida por uma requisição após considerar os multiplicadores de redução de token.

Observabilidade de Aplicações de Inferência em Produção

Em aplicações de inferência com streaming, como chatbots, assistentes de codificação ou geração de conteúdo em tempo real, o tempo que o modelo leva para retornar seu primeiro token afeta diretamente a responsividade percebida pela aplicação. Um atraso no primeiro token impacta a experiência do usuário, mesmo quando o throughput geral permanece dentro de intervalos aceitáveis.

Medir essa métrica no lado do servidor anteriormente exigia instrumentar o código da aplicação para capturar timestamps ao redor das chamadas de API. Isso adicionava complexidade e poderia introduzir imprecisões que não refletiam o comportamento real do lado do serviço.

A gestão de quota apresenta um desafio diferente, mas igualmente crítico. O Amazon Bedrock aplica multiplicadores de redução de token para certos modelos. Isso significa que a quota efetivamente consumida por uma requisição pode diferir dos contadores brutos de tokens vistos nas métricas de faturamento. Por exemplo, modelos Anthropic Claude, incluindo Claude Sonnet 4.6, Claude Opus 4.6, Claude Sonnet 4.5 e Claude Opus 4.5, aplicam um multiplicador de 5x em tokens de saída para fins de quota. Uma requisição que produz 100 tokens de saída consome efetivamente 500 tokens de sua quota de Tokens Por Minuto (TPM). O faturamento ocorre apenas sobre o uso real de tokens.

Sem visibilidade nesse cálculo, a limitação de taxa pode parecer imprevisível, dificultando a definição de alarmes apropriados ou planejamento de aumentos de capacidade antecipadamente. Para clientes usando inferência entre regiões, esses desafios se multiplicam porque é necessária visibilidade por perfil de inferência para compreender desempenho e consumo entre configurações geográficas e globais.

As Novas Métricas: TimeToFirstToken e EstimatedTPMQuotaUsage

TimeToFirstToken: Medindo Latência de Streaming

A métrica TimeToFirstToken mede a latência, em milissegundos, do momento em que o Amazon Bedrock recebe sua requisição de streaming até quando o serviço gera o primeiro token de resposta. É emitida para as APIs de streaming: ConverseStream e InvokeModelWithResponseStream. Por ser medida no lado do servidor, reflete a latência real do serviço sem ruído das condições de rede ou processamento no cliente.

Com essa métrica, é possível:

Definir alarmes de latência — Criar alarmes do CloudWatch que notifiquem quando o tempo até o primeiro token ultrapassa limites aceitáveis, detectando degradação de desempenho antes que afete usuários.
Estabelecer baselines de SLA — Analisar dados históricos de TimeToFirstToken entre modelos para definir baselines informados de desempenho para as aplicações.
Diagnosticar problemas de desempenho — Correlacionar TimeToFirstToken com outras métricas do Amazon Bedrock, como InvocationLatency (Tempo até Último Token), isolando se questões de latência originam-se do tempo de resposta inicial do modelo ou do processamento geral da requisição.

A métrica é publicada com a dimensão ModelId e, opcionalmente, com dimensões ServiceTier e ResolvedServiceTier. Para perfis de inferência entre regiões, o ModelId corresponde ao identificador do seu perfil de inferência (por exemplo, us.anthropic.claude-sonnet-4-5-v1), permitindo monitorar TimeToFirstToken separadamente para cada perfil. É emitida apenas para requisições de streaming completadas com sucesso.

Figura 1: Como o Amazon Bedrock mede TimeToFirstToken e EstimatedTPMQuotaUsage durante uma requisição de streaming — Fonte: Aws

EstimatedTPMQuotaUsage: Entendendo Consumo Real de Quota

A métrica EstimatedTPMQuotaUsage acompanha a quota estimada de Tokens Por Minuto (TPM) consumida por suas requisições. Diferentemente dos contadores brutos de tokens, essa métrica leva em conta os fatores que o Amazon Bedrock considera ao avaliar consumo de quota, incluindo tokens de escrita em cache e multiplicadores de redução de tokens de saída. O nome da métrica inclui “Estimated” para refletir que fornece uma aproximação próxima do consumo de quota para fins de monitoramento e planejamento de capacidade.

As decisões internas de limitação do Amazon Bedrock baseiam-se em cálculos em tempo real que podem diferir ligeiramente dessa métrica, mas EstimatedTPMQuotaUsage foi projetada para fornecer um sinal confiável e acionável. Deve ser precisa o suficiente para definir alarmes, rastrear tendências de consumo e planejar aumentos de quota com confiança. É emitida em todas as APIs de inferência: Converse, InvokeModel, ConverseStream e InvokeModelWithResponseStream.

Fórmulas de Cálculo de Quota

O cálculo da quota estimada depende de seu tipo de throughput:

Para inferência sob demanda:

EstimatedTPMQuotaUsage = InputTokenCount + CacheWriteInputTokens + (OutputTokenCount × burndown_rate)

A taxa de redução varia por modelo. Para a lista completa de modelos e suas respectivas taxas, consulte a documentação sobre multiplicadores de redução de token para gestão de quota. Para inferência sob demanda, tokens de leitura em cache não contam para a quota.

Como exemplo, Claude Sonnet 4.5 aplica uma taxa de redução de 5x em tokens de saída. Uma requisição sob demanda com 1.000 tokens de entrada, 200 tokens de escrita em cache e 100 tokens de saída consome 1.000 + 200 + (100 × 5) = 1.700 tokens de quota. Isso é 400 tokens a mais do que se estimasse apenas a partir dos contadores brutos.

Para Throughput Provisionado (camada reservada):

EstimatedTPMQuotaUsage = InputTokenCount + (CacheWriteInputTokens × 1.25) + (CacheReadInputTokens × 0.1) + OutputTokenCount

No Throughput Provisionado, o multiplicador de redução em tokens de saída não se aplica. Contudo, tokens de leitura em cache contribuem com taxa 0.1 e tokens de escrita em cache são ponderados em 1.25. Note que faturamento difere de uso de quota — você é faturado pelo uso real de tokens, não pelos valores ajustados ou ponderados. Para mais detalhes, consulte multiplicadores de redução de token para gestão de quota.

Com essa métrica, é possível:

Definir alarmes proativos de quota — Criar alarmes do CloudWatch que disparem quando o uso de quota estimado se aproxima do limite de TPM, permitindo agir antes que requisições sejam limitadas.
Rastrear consumo entre modelos — Comparar uso de quota entre diferentes modelos para entender quais cargas consumem mais capacidade e otimizar adequadamente.
Planejar aumentos de quota — Usar tendências históricas de consumo para solicitar aumentos de quota através das quotas de serviço da AWS antes que o crescimento de uso cause limitação.

Dimensões e Filtragem de Métricas

Ambas as métricas compartilham as seguintes características:

Incluem dimensões como ModelId, permitindo filtrar e agregar dados por modelo.
Ao usar um perfil de inferência entre regiões, seja geográfico (por exemplo, us.anthropic.claude-sonnet-4-5-v1) ou global (por exemplo, global.anthropic.claude-sonnet-4-5-v1), a dimensão ModelId corresponde ao identificador do seu perfil de inferência.
Isso oferece visibilidade granular sobre desempenho e consumo entre suas configurações de inferência, permitindo visualizar métricas separadas para cada combinação de perfil de inferência entre regiões e modelo.
Isso é consistente com métricas CloudWatch existentes do Amazon Bedrock como Invocations, InvocationLatency e métricas de contagem de tokens.

Atributo	TimeToFirstToken	EstimatedTPMQuotaUsage
Namespace CloudWatch	AWS/Bedrock	AWS/Bedrock
Unidade	Milissegundos	Contagem
APIs Suportadas	ConverseStream, InvokeModelWithResponseStream	Converse, InvokeModel, ConverseStream, InvokeModelWithResponseStream
Frequência de Atualização	Agregação de 1 minuto	Agregação de 1 minuto
Escopo	Requisições de streaming completadas com sucesso	Requisições completadas com sucesso
Dimensão Principal	ModelId	ModelId
Dimensões Opcionais	ServiceTier, ResolvedServiceTier	ServiceTier, ResolvedServiceTier, ContextWindow (para contextos de entrada superiores a 200K tokens)
Tipos de Inferência Suportados	Inferência entre regiões (geográfica e global), inferência na mesma região	Inferência entre regiões (geográfica e global), inferência na mesma região

Começando a Usar as Novas Métricas

Essas métricas já estão disponíveis em seu dashboard do CloudWatch. Quando sua aplicação chama uma API de inferência do Amazon Bedrock, o serviço processa a requisição, invoca o modelo e publica todas as métricas aplicáveis — incluindo TimeToFirstToken e EstimatedTPMQuotaUsage — no namespace AWS/Bedrock em sua conta CloudWatch. Você pode então usar dashboards, alarmes e matemática de métricas do CloudWatch para monitorar, alertar e analisar essas métricas.

Para começar:

Abra a console do Amazon CloudWatch e navegue para Métricas > Todas as métricas.
Selecione o namespace AWS/Bedrock.
Encontre as métricas TimeToFirstToken ou EstimatedTPMQuotaUsage e filtre por ModelId para visualizar dados de modelos específicos.
Crie alarmes para receber notificações sobre degradação de latência ou consumo de quota aproximando-se de seus limites.

Exemplos Práticos

Gerando Dados de Métrica com Requisições de Inferência

Para gerar pontos de dados de métrica, faça requisições de inferência contra o Amazon Bedrock. Os exemplos a seguir usam o AWS SDK para Python (Boto3) para demonstrar uma requisição sem streaming (que emite EstimatedTPMQuotaUsage) e uma com streaming (que emite TimeToFirstToken e EstimatedTPMQuotaUsage). Nesses exemplos, usamos us-east-1 como a Região AWS e us.anthropic.claude-sonnet-4-6-v1 como um perfil de inferência entre regiões. Substitua pelos seus próprios valores.

Converse (sem streaming):

import boto3

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

response = bedrock.converse(
    modelId='us.anthropic.claude-sonnet-4-6-v1',
    messages=[
        {
            'role': 'user',
            'content': [{'text': 'What is the capital of France?'}]
        }
    ]
)

print(response['output']['message']['content'][0]['text'])
print(f"Input tokens: {response['usage']['inputTokens']}")
print(f"Output tokens: {response['usage']['outputTokens']}")

ConverseStream (com streaming):

import boto3

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

response = bedrock.converse_stream(
    modelId='us.anthropic.claude-sonnet-4-6-v1',
    messages=[
        {
            'role': 'user',
            'content': [{'text': 'What is the capital of France?'}]
        }
    ]
)

for event in response['stream']:
    if 'contentBlockDelta' in event:
        print(event['contentBlockDelta']['delta']['text'], end='')

print()

As mesmas métricas são emitidas para as APIs InvokeModel (sem streaming) e InvokeModelWithResponseStream (com streaming). A tabela abaixo resume quais métricas cada API emite:

API	Métricas Emitidas
Converse	EstimatedTPMQuotaUsage
ConverseStream	EstimatedTPMQuotaUsage, TimeToFirstToken
InvokeModel	EstimatedTPMQuotaUsage
InvokeModelWithResponseStream	EstimatedTPMQuotaUsage, TimeToFirstToken

Após fazer essas requisições, aguarde aproximadamente 1 a 2 minutos para que as métricas apareçam. Então navegue até a console CloudWatch em Métricas > Todas as métricas > AWS/Bedrock para verificar que os pontos de dados estão presentes para seu modelo.

Consultando Métricas Usando a AWS CLI

Você pode usar a AWS CLI para verificar que as novas métricas estão disponíveis e recuperar seus valores. Primeiro, confirme que as métricas estão sendo publicadas para seu modelo:

# Listar métricas disponíveis de TimeToFirstToken
aws cloudwatch list-metrics --namespace AWS/Bedrock --metric-name TimeToFirstToken

# Listar métricas disponíveis de EstimatedTPMQuotaUsage
aws cloudwatch list-metrics --namespace AWS/Bedrock --metric-name EstimatedTPMQuotaUsage

Conclusão

Com as novas métricas TimeToFirstToken e EstimatedTPMQuotaUsage do CloudWatch, o Amazon Bedrock oferece a observabilidade necessária para executar cargas de trabalho de inteligência artificial generativa em produção com confiança.

Pontos principais:

Medir latência de streaming no lado do servidor — TimeToFirstToken fornece medição precisa de latência no lado do servidor para APIs de streaming sem exigir nenhuma instrumentação no cliente.
Compreender o verdadeiro consumo de quota — EstimatedTPMQuotaUsage reflete o impacto estimado de quota de suas requisições, incluindo multiplicadores de redução, permitindo prever e prevenir limitação.
Nenhuma ação necessária para começar — Ambas as métricas são emitidas automaticamente sem custo adicional. Abra seu dashboard do CloudWatch para começar a usá-las.
Definir alarmes proativos — Use essas métricas para criar alarmes que detectem problemas de desempenho e pressão de quota antes que afetem suas aplicações.

Abra sua console do Amazon CloudWatch hoje mesmo para explorar essas novas métricas e configurar alarmes adaptados aos requisitos de sua carga de trabalho.

Referências

Fonte

Improve operational visibility for inference workloads on Amazon Bedrock with new CloudWatch metrics for TTFT and Estimated Quota Consumption (https://aws.amazon.com/blogs/machine-learning/improve-operational-visibility-for-inference-workloads-on-amazon-bedrock-with-new-cloudwatch-metrics-for-ttft-and-estimated-quota-consumption/)

March 13, 2026

Agentes de IA Seguros com Políticas no Amazon Bedrock AgentCore
O Desafio de Segurança em Agentes de IA

Implantar agentes de inteligência artificial com segurança em indústrias reguladas representa um dos maiores desafios da computação moderna. Sem limites bem definidos, um agente capaz de acessar dados sensíveis ou executar transações financeiras se torna um vetor de risco significativo.

O que torna os agentes de IA tão poderosos é justamente aquilo que os torna arriscados: sua autonomia. Diferentemente de software tradicional que segue um fluxo predeterminado, um agente de IA seleciona ações para atingir um objetivo, invocando ferramentas, acessando dados e adaptando seu raciocínio com base em informações do ambiente e do usuário. Essa flexibilidade é essencial para sua efetividade, mas exige controles de segurança rigorosos.

Um modelo mental útil para compreender a segurança de agentes é imaginar “muros” ao seu redor que definem exatamente o que o agente pode acessar, com o que pode interagir e que efeitos pode ter no mundo externo. Sem esses muros bem definidos, um agente autorizado a enviar emails, consultar bancos de dados, executar código ou disparar transações financeiras representa um risco real de exfiltração de dados, acesso não intencional a infraestrutura ou ataques de injeção de prompts.

Por Que Agentes Precisam de Enforcement Externo de Políticas

Proteger agentes de IA é mais complexo que proteger software tradicional. As características que os tornam poderosos — raciocínio aberto, uso flexível de ferramentas e adaptabilidade a novas situações — também criam comportamentos imprevisíveis e difíceis de controlar com segurança.

Agentes dependem de inferência com Grandes Modelos de Linguagem (LLM), que podem alucinar e carecem de separação clara entre instruções confiáveis e texto incidental. Isso os torna vulneráveis a ataques adversariais como injeção de prompts, que exploram essas fraquezas para contornar salvaguardas.

Historicamente, essas vulnerabilidades são gerenciadas através de restrições programadas no código da aplicação. Esse método funciona, mas com custos ocultos: o comportamento seguro depende da corretude do código wrapper, que se torna uma fronteira de segurança implícita. Auditar se as políticas corretas estão em lugar requer análise cuidadosa de potencialmente grande base de código. Equipes de segurança precisam revisar código de aplicação em vez de ter uma definição de política clara e auditável.

A AWS introduziu uma abordagem diferente: movendo a política completamente para fora do agente. Agora o enforcement ocorre antes da invocação da ferramenta, através do AgentCore Gateway. Isso significa que a política é enforçada independentemente do que o agente faz, como é manipulado ou que bugs possam existir no código do agente. Com essa separação, equipes podem focar em capacidade sem tratar cada linha de código como uma fronteira de segurança.

Cedar: Linguagem para Enforcement Determinístico de Políticas

Para tornar o enforcement externo de política prático, é necessária uma linguagem que seja simultaneamente eficiente para máquinas e auditável para humanos. Cedar é a linguagem de autorização utilizada no Policy do Amazon Bedrock AgentCore, projetada especificamente para ser tanto uma linguagem de autorização prática quanto um alvo para análise matemática automatizada.

Cada política Cedar especifica um principal (quem), uma ação (o que) e um recurso (onde), com condições opcionais na cláusula when. Um exemplo simples mostra como permitir que apenas Alice visualize uma foto:
```
permit(
  principal == User::"alice",
  action == Action::"view",
  resource == Photo::"VacationPhoto94.jpg"
);
```
Além de atributos em principals, recursos e ações, Cedar permite passar um objeto de contexto com atributos que podem ser referenciados em políticas para condicionar decisões a informações de tempo de execução. Isso permite criar políticas sofisticadas que combinam identidade, função, contexto e dados da requisição.

A semântica de Cedar — incluindo negação como padrão, “forbid vence permit” e avaliação independente de ordem — torna razoável raciocinar sobre políticas de forma composicional. A latência de avaliação é mínima graças à estrutura sem loops. Politicas Cedar não têm efeitos colaterais como acesso a sistema de arquivos ou chamadas de rede, permitindo avaliação segura sem sandboxing mesmo quando escritas por autores não confiáveis.

Policy no Amazon Bedrock AgentCore

O Policy no Amazon Bedrock AgentCore fornece o mecanismo concreto que avalia cada requisição agente-para-ferramenta contra políticas Cedar explicitamente definidas. Um motor de política é uma coleção de políticas expressas em Cedar.

Para tornar a autoria de políticas acessível, elas podem ser criadas de duas maneiras: authored diretamente como Cedar para controle programático fino-granular, ou geradas a partir de enunciados em linguagem natural que são automaticamente formalizados em Cedar. A partir de linguagem natural, o serviço gera código Cedar sintaticamente correto, valida contra o schema do gateway e analisa para identificar políticas excessivamente permissivas, restritivas ou problemáticas antes da aplicação.

Uma vez definidas, as políticas no Policy no AgentCore interceptam tráfego do agente através dos Gateways do Amazon Bedrock AgentCore, avaliando cada requisição agente-para-ferramenta contra as políticas do motor antes de conceder ou negar acesso à ferramenta.

Imagem original — fonte: Aws

Caso de Uso: Agente de Agendamento de Consultas em Saúde

Para concretizar esses conceitos, consideremos um agente de agendamento de consultas que funciona em um ambiente de saúde. Este sistema de IA ajuda a verificar status de imunização, consulta slots disponíveis e agenda consultas. O objetivo é proteger o sistema usando Policy para prevenir acesso não autorizado a registros de pacientes, exposição inadvertida de informações de saúde protegidas (PHI) ou cancelamento de consultas por pacientes não autorizados.

O Policy no Amazon Bedrock AgentCore adota postura de negação por padrão: se nenhuma política de permissão coincide com uma requisição, ela é bloqueada. Combinado com o princípio de que “forbid vence permit”, essas duas semânticas estabelecem uma base sólida para construir um conjunto coeso de regras Cedar legíveis e auditáveis que melhorem a segurança do agente em produção.

Ferramentas do Agente de Saúde

O agente de agendamento possui as seguintes ferramentas:
- getPatient: GET /get_patient_emr — Obtém um registro de paciente pelo parâmetro de query obrigatório patient_id (string)
- searchImmunization: POST /search_immunization_emr — Procura registros de imunização com parâmetro obrigatório search_value (string; ID do paciente)
- bookAppointment: POST /book_appointment — Agenda uma consulta fornecendo date_string (string; formato “YYYY-MM-DD HH:MM”)
- getSlots: GET /get_available_slots — Obtém slots disponíveis pelo parâmetro de query obrigatório date_string (string; “YYYY-MM-DD”)
Políticas Baseadas em Identidade

Uma regra fundamental em um agente de saúde é que pacientes devem conseguir agir apenas em seus próprios registros. Criar uma política que permita um paciente ler seus próprios registros de paciente e imunização requer que o parâmetro da ferramenta (patient_id para getPatient, search_value para searchImmunization) coincida com o ID autenticado do usuário.

Separação de Leitura e Escrita

Um padrão comum em sistemas de saúde é permitir acesso amplo de leitura enquanto restringe firmemente operações de escrita. Uma exemplo de política seria permitir leituras apenas para usuários autenticados com escopo apropriado (por exemplo, fhir:read) e manter escritas sob controle separado. Similar, um escopo appointment:write pode ser usado para controlar acesso a operações de escrita.

Controles de Risco em Agendamento

Além de controle de acesso, Policy pode enforçar regras de negócio ou padrões perigosos que ajudam a prevenir abuso. Ao usar “forbid” explícitos para barrar padrões de entrada perigosos nas ferramentas, é possível proteger a aplicação mesmo que o agente seja comprometido.

Por exemplo, criar uma política que bloqueie a exibição de slots de consulta fora de horários limitados. Uma declaração em linguagem natural como “Permitir que usuários vejam slots apenas entre 9h e 21h UTC” pode ser convertida em uma política Cedar que garante isso automaticamente.

Imagem original — fonte: Aws

Começando a Usar

Para experimentar esse exemplo, comece clonando o repositório de amostras do Amazon Bedrock AgentCore e navegando até a pasta do agente de consultas médicas:
```
git clone https://github.com/awslabs/amazon-bedrock-agentcore-samples.git
cd amazon-bedrock-agentcore-samples/02-use-cases/healthcare-appointment-agent
```
A partir daí, siga as instruções de configuração e implantação no README para configurar seu ambiente AWS, implantar a stack de exemplo e invocar o agente end-to-end.

Pré-requisitos

Para usar Policy no Amazon Bedrock AgentCore com sua aplicação de agentes, verifique se atende aos seguintes pré-requisitos:
- Uma conta AWS ativa
- Confirmação das regiões AWS onde Policy no AgentCore está disponível
- Permissões IAM apropriadas para criar, testar e anexar motor de política ao seu AgentCore Gateway
Para produção, limpe os ARNs de recurso para IDs específicos de motor de política e gateway em vez de usar wildcards. Para o conjunto completo de permissões incluindo configuração do execution role do Gateway, consulte as permissões IAM do AgentCore Gateway e Policy.

Testando Enforcement de Políticas

Dois casos de teste ilustram como políticas de acesso escopo-identidade funcionam quando o agente invoca a ferramenta getPatient em nome de um usuário. Em ambos os casos, o usuário autenticado é patient adult-patient-001.

Caso 1: PERMITIR — Paciente acessando seu próprio registro

O agente envia uma requisição tools/call ao gateway para invocar getPatient com o parâmetro patient_id definido como adult-patient-001. Como o patient_id na entrada da ferramenta coincide com o patient_id autenticado do usuário, a política Cedar permite a requisição:
```
Prompt: "Get my patient information for patient ID adult-patient-001"
Policy decision: ALLOW
Result: Patient record returned successfully
```
Caso 2: NEGAR — Paciente tentando acessar registro de outro paciente

Agora o agente envia a mesma requisição tools/call para getPatient, mas com patient_id definido como pediatric-patient-001. A política Cedar compara a entrada contra o patient_id autenticado do usuário, encontra uma desconexão e nega a requisição porque não há política de permissão coincidente:
```
Prompt: "Get patient information for patient ID pediatric-patient-001"
Policy decision: DENY
Result: Tool execution denied by policy enforcement
```
O mesmo código do agente, o mesmo modelo e a mesma ferramenta são usados em ambos os casos. A única diferença é a avaliação de política na fronteira do gateway. A ferramenta é protegida da requisição negada porque o gateway intercepta antes da execução.

Um segundo padrão de enforcement demonstra uma regra “forbid” que bloqueia operações de agendamento fora de horários permitidos. Se o agente fizer a mesma requisição mas às 3h UTC, a regra “forbid” coincide porque a hora está abaixo de nove, e como “forbid vence permit” em Cedar, a requisição é bloqueada independentemente de outras políticas de permissão:
```
Prompt: "Show me available appointment slots for 2025-08-15" (requested at 03:00 UTC)
Policy decision: DENY
Result: Tool execution denied by policy enforcement
```
Próximos Passos

Pronto para adicionar enforcement determinístico de política aos seus próprios agentes? Estes recursos ajudarão você a começar rapidamente:
- O Policy Developer Guide cobre autoria de política Cedar, formalização de linguagem natural para Cedar, criptografia com AWS KMS e construtos CDK para implantações Infrastructure as Code (IaC)
- O workshop Getting Started do AgentCore guia você através da construção e proteção de um agente end-to-end, incluindo integração de Policy com AgentCore Gateway
- Dúvidas sobre implementar essas políticas em seu caso de uso específico? Compartilhe seus pensamentos na comunidade de fóruns AWS
Conclusão

Agentes de IA são tão confiáveis quanto os limites que os contêm. Esses limites devem ser enforçados de forma determinística, não deixados à mercê do raciocínio interno do modelo. O Policy no Amazon Bedrock AgentCore oferece um caminho principiado para definir esses limites e enforçá-los na camada de gateway em cada requisição agente-para-ferramenta. Essas políticas são enforçadas independentemente do raciocínio do agente e são auditáveis por qualquer membro da equipe de segurança.

Para empresas implantando agentes em indústrias reguladas, essa separação entre capacidade e enforcement é o fundamento que torna possível sistemas agentic de nível produção. Ao combinar flexibilidade de IA com controles determinísticos, organizações podem inovar com confiança.

Fonte

Secure AI agents with Policy in Amazon Bedrock AgentCore (https://aws.amazon.com/blogs/machine-learning/secure-ai-agents-with-policy-in-amazon-bedrock-agentcore/)
March 13, 2026
Busca multimodal em escala: um data lake de IA para conteúdo de mídia e entretenimento
Buscando além das palavras-chave tradicionais

A busca em repositórios de vídeo costuma depender de etiquetagem manual ou palavras-chave predefinidas. A AWS apresenta uma alternativa que vai além: uma arquitetura escalável para busca multimodal em vídeos, capaz de processar consultas em linguagem natural e encontrar conteúdo relevante não apenas pelas tags, mas pela compreensão semântica do que realmente acontece no vídeo.

A solução integra os modelos Amazon Nova com o Amazon OpenSearch Service, gerando embeddings que capturam informações visuais e de áudio simultaneamente. O resultado é um sistema que entende o contexto do conteúdo videográfico de forma muito mais rica que abordagens tradicionais.

Processando escala em volume real

Para demonstrar a viabilidade dessa abordagem, a AWS processou 792.270 vídeos de dois conjuntos de dados públicos: Multimedia Commons (787.479 vídeos com média de 37 segundos) e MEVA (4.791 vídeos com média de 5 minutos). No total, foram processadas 8.480 horas de conteúdo em 41 horas de computação.

Os custos ficaram em torno de R$ 27 mil no primeiro ano (utilizando OpenSearch sob demanda) ou R$ 23 mil com instâncias reservadas. A ingestão única custou aproximadamente R$ 18 mil, enquanto a assinatura anual do OpenSearch ficou entre R$ 5,5 mil e R$ 9,2 mil, dependendo do modelo de pagamento escolhido.

Arquitetura em duas camadas: ingestão e busca

A solução é organizada em dois fluxos de trabalho principais que trabalham em conjunto.

O pipeline de ingestão de vídeos

O processamento utiliza quatro instâncias Amazon EC2 do tipo c7i.48xlarge, cada uma executando 600 trabalhadores paralelos para processar aproximadamente 19.400 vídeos por hora. A API assíncrona de embeddings multimodais permite que o sistema segmente vídeos em trechos de 15 segundos (otimizados para capturar mudanças de cena) e gere embeddings de 1.024 dimensões.

A escolha por embeddings de 1.024 dimensões em vez de 3.072 dimensões resultou em economia de três vezes no armazenamento, com impacto mínimo na precisão. O processamento responde pela maior parte do custo: aproximadamente R$ 17 mil dos R$ 18 mil da ingestão.

Além dos embeddings, o sistema utiliza Amazon Nova Pro (ou Amazon Nova 2 Lite para melhor custo-benefício) para gerar entre 10 e 15 etiquetas descritivas por vídeo a partir de uma taxonomia predefinida, facilitando buscas por palavras-chave complementares.

Pipeline de ingestão de vídeos mostrando o fluxo de armazenamento no S3 através dos modelos Nova até os índices do OpenSearch — fonte: Aws

Armazenamento em índices especializados

Os embeddings são indexados em um índice k-NN do OpenSearch para buscas semânticas vetoriais, enquanto as etiquetas de metadados ficam em um índice de texto separado para correspondências por palavras-chave. Essa arquitetura dual permite otimizar cada tipo de busca independentemente.

Três formas de buscar: texto, vídeo e híbrida

A arquitetura suporta três modos de consulta distintos, cada um atendendo a casos de uso diferentes.

Busca por texto em vídeos

O usuário digita uma consulta em linguagem natural. O sistema converte essa consulta em um embedding utilizando a API síncrona do Amazon Nova Multimodal Embeddings e realiza uma busca de similaridade vetorial (k-NN) contra todos os segmentos indexados. Uma consulta como “pessoa caminhando na praia ao pôr do sol” encontra segmentos de vídeo com significado semelhante, não necessariamente com essas palavras exatas.

Busca vídeo a vídeo

A busca por similaridade também funciona ao contrário: seleciona-se um segmento de um vídeo já indexado e encontram-se segmentos similares de toda a biblioteca. Não há necessidade de invocar o modelo novamente — o embedding já existe no OpenSearch.

Busca híbrida

A abordagem mais robusta combina os dois métodos: busca vetorial por similaridade (70% do peso) com busca textual por palavras-chave (30% do peso). Segmentos que aparecem em ambas as consultas recebem uma pontuação combinada, entregando resultados mais precisos quando a qualidade das etiquetas é elevada.

Arquitetura de busca de vídeos mostrando os três modos de consulta — fonte: Aws

Performance em escala de produção

Depois de indexar mais de 792 mil vídeos, o sistema foi testado em relação à velocidade de resposta:
- Busca semântica k-NN: ~76 ms (utilizando algoritmo HNSW com complexidade logarítmica)
- Busca textual BM25: ~30 ms
- Busca híbrida: ~106 ms
O armazenamento total necessário foi de 29,8 GB — 28,8 GB para o índice vetorial e 1 GB para o índice de texto. Todas as três modalidades de busca mantêm latências abaixo de 200 ms mesmo em escala de centenas de milhares de vídeos, atendendo aos requisitos típicos de aplicações interativas.

Implementando a solução na prática

Pré-requisitos

Para começar, é necessário ter acesso a uma conta AWS com Amazon Bedrock na região us-east-1, Python 3.9 ou superior, AWS CLI configurada, um domínio do OpenSearch Service com instâncias r6g.large ou maiores, um bucket Amazon S3 para armazenar vídeos e embeddings, e permissões apropriadas de Controle de Acesso à Identidade (IAM).

Configurando permissões

O primeiro passo é criar uma função IAM com permissões para invocar modelos do Amazon Bedrock, escrever em índices do OpenSearch e ler/escrever objetos no S3. A política deve permitir as ações específicas de invocação de modelos Nova, operações no OpenSearch e acesso aos buckets de vídeos e embeddings.

Criando índices no OpenSearch

É necessário criar dois índices do OpenSearch Service: um para embeddings vetoriais (k-NN) e outro para metadados de texto. O primeiro deve habilitar a funcionalidade k-NN com dimensão de 1.024 e usar o algoritmo HNSW com similitude de cosseno. O segundo segue a estrutura padrão de índice de texto com dois campos: identificador do vídeo, índice do segmento, e etiquetas.

Processando vídeos com Nova

A API assíncrona do Amazon Bedrock processa vídeos e gera embeddings. O sistema segmenta vídeos em trechos de 15 segundos, combina informações visuais e de áudio, e retorna os embeddings via S3. Como há um limite de 30 trabalhos simultâneos por conta, a implementação inclui uma fila de trabalhos com polling — submeter jobs até o limite, aguardar conclusão e submeter novos conforme slots ficam disponíveis.

Gerando etiquetas com Nova Pro

Após gerar embeddings, o sistema utiliza Nova Pro (ou Nova Lite para melhor custo-benefício) para extrair etiquetas descritivas de uma taxonomia predefinida. Isso enriquece a capacidade de busca por palavras-chave e melhora significativamente os resultados da busca híbrida.

Indexando dados no OpenSearch

Os embeddings e etiquetas são carregados no OpenSearch usando indexação em massa para eficiência. Cada segmento de vídeo gera uma entrada no índice vetorial com sua dimensão de 1.024 componentes, e outra entrada no índice de texto com suas etiquetas associadas.

Executando buscas

Após a ingestão, o sistema está pronto para receber consultas. Para buscas por texto em vídeos, o sistema converte a consulta em embedding usando a API síncrona do Amazon Nova e realiza uma busca de similaridade no índice k-NN. Para buscas vídeo a vídeo, recupera-se o embedding de um segmento de referência e realiza-se a mesma busca de similaridade. Buscas híbridas combinam os dois métodos, agregando pontuações ponderadas de ambos os índices.

Escalando para produção

Conforme o volume de vídeos cresce, recomenda-se utilizar AWS Batch para processar lotes de vídeos em paralelo em múltiplas instâncias, particionando o dataset entre diferentes trabalhadores. O monitoramento da saúde do cluster OpenSearch Service é importante para escalar nós de dados conforme o índice cresce. A arquitetura de dois índices escala bem porque buscas vetoriais e textuais podem ser otimizadas independentemente.

Os pesos da busca híbrida (70% vetor, 30% texto) podem ser ajustados conforme o caso de uso. Se as etiquetas forem de alta qualidade, aumentar o peso textual para 50% pode melhorar resultados para consultas específicas.

Considerações de custo e desempenho

O tempo de processamento de um vídeo depende de sua duração. Um vídeo de 45 segundos leva aproximadamente 70 segundos para ser totalmente processado pela API assíncrona. Escolher embeddings de 1.024 dimensões em vez de 3.072 reduz custos de armazenamento em três vezes com mínimo impacto em precisão.

A cobrança pelos embeddings ocorre por segundo de vídeo processado (R$ 0,00056 por segundo no modo de lote), então a duração total do vídeo é o fator determinante, não a dimensão dos embeddings. A API assíncrona é significativamente mais econômica que processar vídeos quadro a quadro.

Para o OpenSearch Service, instâncias r6g oferecem melhor relação preço-desempenho que gerações anteriores, e é possível implementar estratificação de dados para mover conteúdo frio para S3 e economizar ainda mais.

Limpeza de recursos

Ao finalizar os testes, para evitar cobranças contínuas, é importante deletar o domínio do OpenSearch Service, limpar e remover os buckets S3 usados para vídeos e embeddings, e remover qualquer função IAM criada especificamente para a solução. Cobranças pelo Amazon Bedrock baseiam-se em uso real, portanto nenhuma limpeza adicional é necessária para os modelos.

Abrindo caminhos para novos casos de uso

A solução apresentada oferece uma base sólida para buscas inteligentes em repositórios de vídeo em escala. A combinação de processamento multimodal com índices vetoriais mantém custos gerenciáveis mesmo com centenas de milhares de vídeos, enquanto entrega experiências de busca muito superiores aos métodos tradicionais.

Para aprofundar nos detalhes técnicos, consulte a documentação de Amazon Nova Multimodal Embeddings e Busca Híbrida com Amazon OpenSearch Service.

Fonte

Multimodal embeddings at scale: AI data lake for media and entertainment workloads (https://aws.amazon.com/blogs/machine-learning/multimodal-embeddings-at-scale-ai-data-lake-for-media-and-entertainment-workloads/)
March 13, 2026

Author: Make.com Service User

Introdução: O Desafio Real da IA Autônoma

Orientação por Persona: Papéis e Responsabilidades

Para o Dono do Negócio: Conecte o Agente aos seus KPIs

Para o CTO ou Arquiteto Chefe: Decida se Quer Dez ou Cem Agentes

Para o CISO: Trate Agentes como Colegas, Não como Código

Para o Diretor de Dados: Torne os Dados Mundanos

Para o Chefe de Ciência de Dados ou IA: Avaliação é seu Produto Real

Para o Oficial de Conformidade ou Legal: Projete para Auditorias Antes de Enfrentá-las

Cinco Movimentos para Começar

Próximos Passos

Fonte

Resumo da Semana

O que muda na prática

Ações da semana

Top 10 da Semana

Patrocínio

Resumo da Semana

O que muda na prática

Ações da semana

Top 10 da Semana

Patrocínio

Resumo da Semana

O que muda na prática

Ações da semana

Top 10 da Semana

Patrocínio

Replicação de Identidades Corporativas em Múltiplas Regiões

Alinhamento com Aplicações Gerenciadas da AWS

Pré-Requisitos e Limitações Importantes

Antes de Começar

Restrições a Considerar

Configuração Prática da Replicação Multi-Região

Criação de Chaves KMS Multi-Região

Adição de Regiões Adicionais

Atualização da Configuração do Provedor de Identidade

Sincronização de Endpoints SAML

Aplicações de Bookmark para Portais Regionais

Testes da Configuração Multi-Região

Acesso a Contas AWS pela Região Adicional

Acesso Pela Interface de Linha de Comando

Implantação de Aplicações Gerenciadas

Resiliência e Roteamento Automático

Controle de Administração por Região

Conclusão

Fonte

O Desafio da Decodificação Especulativa em LLMs

Como P-EAGLE Funciona

Eliminando o Gargalo Sequencial

A Abordagem P-EAGLE

Dois Passos Fundamentais

Treinamento em Sequências Longas

Integração no vLLM

Desafios da Decodificação Especulativa Paralela

Kernel Triton Otimizado

Gestão de Estados Ocultos

Resultados de Benchmark

Comprimento de Aceitação Aprimorado

Como Começar

Configuração Básica

Executando Benchmarks

Recursos Disponíveis

Conclusão

Fonte

Uma nova abordagem para desenvolvimento serverless

Capacidades e funcionalidades

Boas práticas desde o início

Acesso e documentação

Fonte

Monitorando Cargas de IA Generativa em Escala

O Fundamento: Métricas Existentes do Bedrock

Observabilidade de Aplicações de Inferência em Produção

As Novas Métricas: TimeToFirstToken e EstimatedTPMQuotaUsage

TimeToFirstToken: Medindo Latência de Streaming

EstimatedTPMQuotaUsage: Entendendo Consumo Real de Quota

Fórmulas de Cálculo de Quota

Dimensões e Filtragem de Métricas

Começando a Usar as Novas Métricas

Exemplos Práticos

Gerando Dados de Métrica com Requisições de Inferência