Author: Make.com Service User

  • IA Generativa Transformando o Varejo: Uma Solução Completa de Prova Virtual com AWS

    O Desafio do Varejo Online e a Solução com IA

    O comércio eletrônico enfrenta um obstáculo persistente: quando os clientes compram roupas pela internet, ficam inseguros quanto ao caimento e à aparência das peças, resultando em altas taxas de devolução e redução na confiança de compra. Isso gera perdas de receita, custos operacionais elevados e frustração do cliente. Paralelamente, consumidores esperam cada vez mais por experiências imersivas e interativas que aproximem o shopping online do ambiente físico de uma loja.

    A implementação de tecnologia de prova virtual resolve esse problema significativamente. Varejistas que adotam essa abordagem conseguem aumentar a confiança na compra, reduzir devoluções e, consequentemente, melhorar a lucratividade e a satisfação do cliente.

    A AWS desenvolveu uma demonstração prática de como construir uma solução integrada de prova virtual e recomendação de produtos usando tecnologias serverless. O artigo técnico documenta a arquitetura, o processo de implementação e as considerações-chave para quem deseja implantar essa solução. O código-fonte está disponível no repositório do GitHub para que parceiros e varejistas possam implementar em suas contas AWS.

    Capacidades Principais da Solução

    A solução integra quatro funcionalidades de negócio essenciais:

    Prova Virtual Realista

    A prova virtual gera visualizações fotorrealistas de clientes usando ou portando produtos. Utiliza o Amazon Nova Canvas e o Amazon Rekognition para processar imagens do cliente e da roupa, gerando resultados que mostram como o item ficaria no usuário.

    Recomendações Inteligentes Baseadas em Visão

    O sistema oferece sugestões de produtos visualmente conscientes usando Amazon Titan Multimodal Embeddings. Essa abordagem compreende relações de estilo e similaridade visual entre peças, permitindo recomendações que vão além de correspondências simples de palavras-chave.

    Busca Inteligente com Processamento de Linguagem Natural

    A busca permite descoberta de produtos por linguagem natural com inteligência orientada a objetivos. O OpenSearch Serverless realiza correspondência de similaridade vetorial, permitindo consultas conversacionais como “mostre-me vestidos azuis com menos de 100 reais” ou “camisetas casuais femininas”.

    Análise e Insights em Tempo Real

    O sistema rastreia interações do cliente, preferências e tendências usando Amazon DynamoDB, permitindo que varejistas otimizem decisões de inventário e merchandising em tempo real.

    Arquitetura Técnica e Componentes

    A solução funciona sobre infraestrutura serverless da AWS, composta por cinco funções AWS Lambda especializadas: interface web (chatbot), processamento de prova virtual, geração de recomendações, ingestão de dados e busca inteligente. A arquitetura usa buckets S3 para armazenamento seguro, Amazon OpenSearch Serverless para busca por similaridade vetorial e DynamoDB para rastreamento de análises em tempo real.

    O design modular permite que você implemente capacidades individuais ou a solução completa. A documentação, imagens de teste pré-construídas e scripts utilitários para gerenciamento de dados facilitam a personalização para necessidades específicas de varejo.

    Requisitos de Implantação

    Pré-requisitos Iniciais

    Antes de iniciar o processo de implementação, verifique que você possui:

    • Uma conta AWS ativa com privilégios administrativos
    • AWS Command Line Interface (CLI) instalada e configurada com credenciais apropriadas
    • AWS SAM (Serverless Application Model) CLI versão 1.50.0 ou superior
    • Python 3.9 ou superior com pip
    • Git para clonar repositórios

    Modelos Amazon Bedrock Necessários

    A solução requer Amazon Nova Canvas, Amazon Titan Multimodal Embeddings, Amazon Rekognition e Amazon OpenSearch Serverless na mesma região. A implementação é recomendada em US East (N. Virginia) — us-east-1.

    A AWS anunciou que os modelos de fundação do Amazon Bedrock agora são automaticamente habilitados quando invocados pela primeira vez em sua conta, em todas as regiões comerciais AWS. Os modelos necessários para essa solução serão ativados automaticamente quando a aplicação os chamar pela primeira vez — não é necessária habilitação manual.

    Se você estiver implantando em uma região diferente de us-east-1, confirme que todos os modelos necessários são suportados consultando a página de suporte de modelos Amazon Bedrock por região e a lista de serviços regionais da AWS.

    Permissões e Configuração de Identidade

    A função IAM (Identity and Access Management) usada para implantar o template SAM deve ter permissões para criar e gerenciar funções Lambda, criar buckets S3, gerenciar coleções Amazon OpenSearch Serverless, criar tabelas DynamoDB, invocar modelos Amazon Bedrock, acessar serviços Amazon Rekognition, e gerenciar stacks CloudFormation.

    Processo de Implantação Passo a Passo

    Etapa 1: Configuração do Repositório

    Comece clonando o repositório e navegando até o diretório do projeto:

    git clone https://github.com/aws-samples/sample-genai-virtual-tryon.git
    cd VirtualTryOne-GenAI

    Examine a estrutura do projeto para compreender a organização da base de código: o arquivo template.yaml define todos os recursos AWS, requirements.txt lista as dependências Python, os arquivos de função Lambda (*.py), o conjunto de dados de moda e imagens de exemplo.

    Etapa 2: Instalação de Dependências

    pip install -r requirements.txt

    Esse comando instala pacotes necessários para processamento de imagens, interações com AWS SDK, conectividade com OpenSearch e outras funcionalidades essenciais.

    Etapa 3: Construção com SAM

    sam build

    O processo de construção cria pacotes de implantação para cada função Lambda, resolve dependências, valida a sintaxe do template SAM e prepara os templates CloudFormation para implantação.

    Etapa 4: Implantação Orientada

    sam deploy --guided

    Para a primeira implantação, use a opção de implantação orientada. O processo solicitará um nome de stack único, a região AWS para implantação, valores de parâmetros para personalização e confirmação da criação de recursos. Isso cria um arquivo samconfig.toml que armazena suas preferências de implantação para futuras implementações.

    Etapa 5: Implantações Posteriores

    sam deploy

    Após a configuração inicial, use o comando simplificado de implantação, que utiliza a configuração salva no samconfig.toml para implantações consistentes.

    Considerações de Segurança Críticas

    A implantação base não possui autenticação nos endpoints da API Gateway. A AWS recomenda não implantar em produção sem implementar autenticação (por exemplo, usando Amazon Cognito ou autorizadores de API Gateway).

    Além disso, implemente validação de imagem e moderação de conteúdo para todas as imagens enviadas por usuários antes do processamento. Use Amazon Rekognition Content Moderation para detectar conteúdo inadequado ou inseguro, e valide tipo de arquivo, tamanho e dimensões no nível da API Gateway ou camada Lambda. Rejeite imagens que falhem nas verificações de moderação antes de chegar ao armazenamento S3 ou ao pipeline do Nova Canvas. Isso previne que arquivos maliciosos e conteúdo inadequado sejam processados, armazenados ou retornados a outros usuários.

    Etapa 6: Identificação de Stack e ID de Função

    Após executar sam deploy, você precisa encontrar os valores corretos de YourStackName e ID para invocar funções Lambda. A forma mais rápida é verificar a saída do comando sam deploy. A saída DataIngestionFunctionName mostra o nome completo da função. Você também pode recuperar essas informações do CloudFormation, consultar o arquivo samconfig.toml ou acessar o AWS Management Console através do CloudFormation.

    Etapa 7: Configuração do Conjunto de Dados de Moda

    python mini_dataset_uploader.py

    Esse script carrega mais de 60 itens de moda com metadados no bucket S3 designado, habilitando funcionalidades de busca e recomendação.

    Etapa 8: Criação de Índice Vetorial

    aws lambda invoke \
      --function-name <YourStackName>-DataIngestionFunction-<ID> \
      --payload '{}' \
      response.json

    Substitua <YourStackName> e <ID> pelos valores da saída da implantação SAM. Esse processo processa as imagens de moda usando embeddings Titan, cria representações vetoriais para busca por similaridade e indexa dados no Amazon OpenSearch Serverless.

    Funcionalidades da Aplicação para Usuários Finais

    Processo de Prova Virtual

    A prova virtual representa a funcionalidade central, usando Amazon Nova Canvas para criar imagens fotorrealistas de usuários usando peças de roupa selecionadas. O processo começa quando usuários fazem upload de sua foto através de uma interface drag-and-drop que suporta formatos JPEG, PNG e JPG com tamanho máximo de 6 MB.

    O sistema valida e pré-processa imagens automaticamente. Resultados ótimos são alcançados com fotos bem iluminadas, de frente e que mostram claramente o corpo do usuário. Após processar a foto, a seleção de roupa ocorre de duas formas: envio de imagens pessoais de roupas para experiências customizadas, ou navegação e busca no conjunto de dados de moda com mais de 60 itens profissionalmente fotografados.

    A fase de processamento de IA envolve tecnologias de visão computacional e IA generativa. O Amazon Rekognition analisa tanto a foto do usuário quanto o item de roupa para detectar tipos de peça, regiões do corpo e gênero do usuário para pareamento personalizado. O Nova Canvas então gera imagens de prova fotorrealistas que aplicam a roupa selecionada à foto do usuário, com processamento concluído tipicamente em 15 segundos. Os usuários podem interagir com seus resultados de prova virtual através de várias opções: download de imagens em alta qualidade, solicitação de recomendações de itens similares, ou salvamento de favoritos para referência futura.

    Sistema de Recomendações Personalizado

    O motor de recomendação representa um dos aspectos mais avançados da aplicação, usando embeddings multimídia de IA para compreender tanto preferências de moda visual quanto textual. O sistema analisa comportamento do usuário, características das fotos e padrões de interação para gerar sugestões de roupa personalizadas que se alinham com preferências de estilo individual e necessidades práticas.

    Fatores-chave que influenciam recomendações incluem: análise de similaridade visual usando Amazon Titan Multimodal Embeddings para encontrar itens com cores, padrões e estilos similares; gênero detectado e preferências de estilo inferidas; correspondência de categoria que garante recomendações alinhadas com tipos de roupa preferidos (topo, fundo, corpo inteiro, calçados).

    Busca Inteligente de Moda

    O sistema de busca vai além de correspondência de palavras-chave tradicionais, compreendendo consultas em linguagem natural e intenção do usuário. O agente de busca de moda categoriza automaticamente buscas de usuário em três intenções primárias: planejamento de looks (encontrando peças que combinam), caça por preço (compras conscientes de orçamento), e descoberta de estilo (explorando tendências de moda).

    Usuários podem buscar usando frases conversacionais como “mostre-me vestidos azuis com menos de 100 reais”, “camiseta casual”, ou “jeans acessíveis para mulheres”. O motor de busca incorpora características avançadas: correção automática de digitação para erros comuns, classificação de resultado orientada a objetivo que prioriza itens baseado na intenção detectada, filtragem multi-critério suportando cor, faixa de preço, categoria e preferências de gênero, e correspondência difusa que lida com variações de tipo de roupa e sinônimos.

    Análise de Custos e Considerações Financeiras

    Os custos variam significativamente baseado no uso real e região. As estimativas apresentadas a seguir baseiam-se em um cenário típico de workshop com 60 itens de moda indexados, 50 provas virtuais diárias, 100 buscas e 75 recomendações, funcionando por um mês.

    Serviços de IA e Aprendizado de Máquina

    Amazon Bedrock – Nova Canvas: Aproximadamente R$ 60,00/mês para 1.500 imagens de prova virtual a R$ 0,04 por imagem. Este é o maior componente de custo.

    Amazon Bedrock – Titan Embeddings: Aproximadamente R$ 0,50 a R$ 1,00/mês para 60 itens indexados mais cerca de 100 consultas de busca diárias.

    Serviços de Infraestrutura

    OpenSearch Serverless: Aproximadamente R$ 7,00 a R$ 12,00/mês com mínimo de 2 Unidades de Computação OpenSearch (OCUs) para indexação e operações de busca.

    NAT Gateway: Aproximadamente R$ 3,50 a R$ 5,00/mês para cerca de 5GB de dados processados para acesso à internet de Lambda.

    AWS Key Management Service (KMS) com encriptação: Aproximadamente R$ 3,00/mês para 3 chaves com rotação automática.

    Lambda, S3 e DynamoDB: Geralmente cobertos pelo nível gratuito ou custos negligenciáveis para esse volume de uso (~50.000 invocações, ~600MB de armazenamento).

    API Gateway, CloudWatch e SQS: Aproximadamente R$ 1,00 a R$ 1,50/mês cobrindo requisições de API, logs e filas de letra morta.

    Para estimativas mais precisas baseadas em seu caso de uso específico, consulte a página de preços da AWS e use a calculadora de preços da AWS.

    Monitoramento, Solução de Problemas e Limpeza

    Monitoramento via CloudWatch

    Monitore o desempenho da aplicação através de grupos de logs CloudWatch para cada função Lambda. Problemas comuns incluem erros de acesso a modelos Amazon Bedrock (verificar habilitação no console e permissões IAM), problemas de conexão OpenSearch (verificar coleta ativa e políticas de rede), e falhas de processamento de imagem (validar formato e tamanho).

    Otimização de Desempenho

    Monitore duração e uso de memória das funções Lambda, implemente caching para dados acessados frequentemente, e considere concorrência provisionada para cenários de alto tráfego.

    Limpeza de Recursos

    Para evitar cobranças contínuas da AWS quando a aplicação não for mais necessária, limpe adequadamente todos os recursos implantados:

    sam delete --stack-name <seu-nome-de-stack>

    Esse comando deleta funções Lambda e recursos associados, remove endpoints de API Gateway, deleta tabelas DynamoDB (os dados serão perdidos), e remove funções e políticas IAM criadas pelo template.

    Alguns recursos podem necessitar deleção manual: buckets S3 precisam ser esvaziados antes da exclusão, e coleções Amazon OpenSearch Serverless podem necessitar remoção através de comando específico.

    Otimização de Custos

    Para minimizar custos enquanto executa a aplicação, use configurações adequadas de memória Lambda baseadas em padrões de uso reais, implemente cache de requisição para reduzir invocações redundantes de modelos de IA, configure alarmes CloudWatch para monitoramento de custos, use políticas de ciclo de vida S3 para arquivamento automático de imagens antigas, e considere capacidade reservada para cenários previsíveis de alto tráfego.

    Conclusão

    A solução demonstra uma abordagem prática para transformação digital de varejistas usando tecnologias serverless. A arquitetura modular permite implementação de capacidades individuais ou da solução completa, adaptando-se a diferentes necessidades de negócio. Os conceitos apresentados — arquitetura de microsserviços serverless, integração de IA e aprendizado de máquina, busca por similaridade vetorial, processamento de linguagem natural e análise em tempo real — representam um modelo replicável para outras aplicações e setores.

    Para implantações em produção, considere implementar funcionalidades adicionais como autenticação de usuário, estratégias avançadas de cache, implantação multi-região e dashboards de monitoramento customizados. A base fornecida oferece um ponto de partida sólido para transformação digital no varejo com IA generativa.

    Recursos Adicionais

    Fonte

    Transform retail with AWS generative AI services (https://aws.amazon.com/blogs/machine-learning/transform-retail-with-aws-generative-ai-services/)

  • AWS Elastic Disaster Recovery chega à Nuvem Soberana Europeia

    Recuperação de Desastres na Nuvem Soberana Europeia

    A AWS Elastic Disaster Recovery (AWS DRS) foi expandida para a Nuvem Soberana Europeia da AWS, abrindo novas possibilidades para organizações que precisam garantir a conformidade com requisitos de soberania de dados. Esse movimento torna possível que empresas européias com cargas de trabalho críticas implementem estratégias robustas de recuperação de desastres, mantendo seus dados dentro de regiões com exigências específicas de residência.

    O anúncio representa um passo importante na evolução dos serviços de recuperação de desastres oferecidos pela AWS, reconhecendo as demandas crescentes por soluções que equilibrem proteção de dados com conformidade regulatória. Para organizações que lidam com informações sensíveis e precisam atender a legislações européias rigorosas, essa disponibilidade oferece uma alternativa viável na infraestrutura em nuvem.

    Capacidades Principais do Serviço

    O serviço de recuperação de desastres da AWS opera com alguns diferenciais técnicos importantes. Primeiramente, minimiza o tempo de inatividade e perda de dados através de recuperação rápida e confiável de aplicações tanto em infraestrutura local quanto baseada em nuvem. A solução utiliza armazenamento acessível, recursos computacionais mínimos e capacidade de recuperação pontual no tempo.

    Os Objetivos de Ponto de Recuperação (RPOs) são medidos em segundos, enquanto os Objetivos de Tempo de Recuperação (RTOs) ficam tipicamente na faixa de minutos. Isso significa que as organizações podem esperar perdas de dados mínimas e períodos de indisponibilidade reduzidos em cenários de desastre.

    Plataformas e Aplicações Suportadas

    A capacidade de recuperação do AWS DRS abrange um espectro amplo de ambientes de infraestrutura. O serviço é capaz de recuperar aplicações provenientes de infraestrutura física, VMware vSphere, Microsoft Hyper-V e infraestruturas em nuvem. Essa flexibilidade permite que organizações com ambientes heterogêneos implementem uma estratégia unificada de recuperação.

    O serviço utiliza um processo unificado para testes, recuperação e reversão para uma variedade extensa de aplicações. Isso inclui bancos de dados críticos como Oracle, MySQL e SQL Server, bem como aplicações empresariais como o SAP. Essa abrangência torna a solução adequada para ambientes corporativos complexos que dependem de múltiplas plataformas tecnológicas.

    Disponibilidade e Próximos Passos

    O AWS Elastic Disaster Recovery está disponível na Nuvem Soberana Europeia, especificamente na região da Alemanha. Para verificar a disponibilidade mais atualizada em outras regiões e contextos, recomenda-se consultar a lista de serviços regionais da AWS.

    Organizações interessadas em conhecer mais detalhes sobre como implementar o AWS DRS podem acessar a página do produto ou consultar a documentação técnica para orientações de implementação e melhores práticas.

    Fonte

    AWS Elastic Disaster Recovery is now available in the AWS European Sovereign Cloud (https://aws.amazon.com/about-aws/whats-new/2026/04/drs-thf/)

  • Decodificação Especulativa Acelerando Inferência de Modelos de Linguagem no AWS Trainium

    Entendendo o desafio da decodificação em modelos de linguagem

    Aplicações de inteligência artificial generativa como assistentes de escrita, agentes de código e sistemas de completamento de texto enfrentam um desafio fundamental: elas geram muito mais conteúdo do que consomem. Durante a fase de decodificação, tokens são produzidos sequencialmente, um de cada vez. Esse processo sequencial deixa os aceleradores de hardware limitados pela largura de banda de memória, com processadores significativamente subutilizados.

    Essa subutilização eleva substancialmente o custo por token gerado. Cada etapa de decodificação ativa kernels caros de multiplicação de matrizes apenas para produzir um único token, mantendo os recursos de processamento praticamente ociosos. É nesse contexto que a decodificação especulativa surge como uma solução promissora.

    Como funciona a decodificação especulativa

    A decodificação especulativa acelera a geração autorregressiva utilizando uma abordagem de dois modelos:

    • Um modelo auxiliar (draft model) propõe rapidamente n tokens candidatos
    • O modelo principal (target model) verifica-os em uma única passagem direta
    Figura 1: Compensações na configuração da decodificação especulativa — Fonte: Aws

    Quando o modelo principal aceita os tokens propostos pelo modelo auxiliar, eles são confirmados sem custo computacional adicional. Ao reduzir o número de etapas sequenciais de decodificação, a técnica diminui significativamente a latência entre tokens e melhora a utilização do hardware.

    Componentes-chave da configuração

    A implementação da decodificação especulativa envolve duas decisões críticas:

    Seleção dos modelos: O modelo auxiliar e o modelo principal devem compartilhar o mesmo tokenizador e vocabulário. A AWS recomenda escolher modelos da mesma família arquitetural porque suas predições de próximo token concordam com maior frequência. Embora seja tecnicamente possível parear modelos com arquiteturas diferentes, acordos menos frequentes reduzem as taxas de aceitação, eliminando a maior parte do ganho de desempenho.

    Janela de tokens especulativos (num_speculative_tokens): Este parâmetro controla quantos tokens o modelo auxiliar propõe simultaneamente. Aumentar esse valor permite pular mais etapas sequenciais de decodificação por passagem de verificação, reduzindo diretamente a latência entre tokens quando as taxas de aceitação são altas.

    Compensações de desempenho

    Configurar esse parâmetro envolve equilibrar cuidadosamente custo computacional versus qualidade de verificação. Valores muito baixos limitam os ganhos de velocidade. Valores excessivamente altos aumentam a probabilidade de rejeições antecipadas, desperdiçando computação do modelo auxiliar e elevando o custo de verificação do modelo principal.

    Os ganhos de desempenho derivam de dois efeitos principais. Primeiro, a decodificação especulativa reduz o número de etapas de decodificação do modelo principal, diminuindo o número de acessos à memória do cache KV. O cache KV armazena tensores de chaves e valores computados anteriormente para evitar recálculo de atenção. Cada etapa de decodificação lê o cache completo da memória, tornando essa fase limitada pela largura de banda. Segundo, a técnica melhora a utilização de hardware durante a decodificação: em vez de processar um único token por vez, o modelo principal processa n tokens simultaneamente, convertendo uma sequência de pequenos cálculos ineficientes em uma carga de trabalho computacionalmente mais densa.

    Modos de suporte no AWS Neuron

    O AWS Neuron é o kit de desenvolvimento para chips de IA da AWS. O NeuronX Distributed Inference (NxDI) é sua biblioteca para inferência escalável e de alto desempenho de modelos de linguagem no Trainium e Inferentia.

    O NxDI oferece suporte nativo à decodificação especulativa no Trainium em quatro modos:

    • Decodificação especulativa vanilla: modelos auxiliar e principal compilados independentemente. É o modo mais simples para começar.
    • Especulação fundida (Fused speculation): modelos compilados conjuntamente para desempenho otimizado. Este é o modo utilizado nos testes descritos neste artigo.
    • Especulação EAGLE: o modelo auxiliar aproveita contexto de estados ocultos do modelo principal para melhorar as taxas de aceitação.
    • Especulação Medusa: múltiplas cabeças de previsão pequenas executam em paralelo, reduzindo sobrecarga do modelo auxiliar.

    Implementação prática com vLLM e Kubernetes

    A AWS implantou dois serviços de inferência vLLM em instâncias Trainium dentro de um cluster Amazon Elastic Kubernetes Service (Amazon EKS), mantendo tudo idêntico exceto o método de decodificação para isolar o impacto de desempenho.

    O serviço baseline (qwen-vllm) executa Qwen3-32B com decodificação padrão. O serviço com especulação (qwen-sd-vllm) executa o mesmo modelo Qwen3-32B principal, adicionando um modelo auxiliar Qwen3-1.7B com num_speculative_tokens=7.

    Ambos os serviços rodavam em configurações idênticas em Trn2 (trn2.48xlarge), com a mesma alocação de acelerador, paralelismo de tensor (que distribui pesos de modelo entre múltiplos NeuronCores), comprimento de sequência, limites de batch e imagem DLC do Neuron. A única diferença era a adição do modelo auxiliar Qwen3-1.7B e o parâmetro num_speculative_tokens=7 para o serviço com especulação.

    Figura 2: Arquitetura do sistema — Fonte: Aws

    Para comparar as duas configurações sob carga idêntica, foi utilizado llmperf para gerar os mesmos padrões de tráfego contra ambos os endpoints. A telemetria de infraestrutura foi capturada com CloudWatch Container Insights e métricas personalizadas de nível de requisição (TTFT, latência entre tokens e latência end-to-end) foram publicadas em painéis do CloudWatch para análise lado a lado.

    Metodologia e resultados de benchmarking

    A AWS utilizou LLMPerf para executar casos de teste estruturados e intensivos em decodificação contra os deployments baseline e com especulação. Os benchmarks rodaram dentro de um pod Kubernetes, qwen-llmperf-pod.yaml, emitindo requisições concorrentes para ambos os endpoints e registrando métricas de latência em nível de token.

    Os casos de teste variaram de prompts altamente estruturados (sequências repetitivas, continuações numéricas, padrões de código simples) até completamentos de linguagem natural em aberto, cobrindo comportamentos tanto de melhor como de pior caso para decodificação especulativa. O conjunto completo de prompts está disponível no repositório de amostras.

    Impacto da decodificação especulativa por tipo de prompt

    Os resultados demonstraram que a decodificação especulativa reduz latência seletivamente, com efetividade fortemente dependente da estrutura do prompt:

    Prompts estruturados: Para prompts como “Repita exatamente a seguinte linha 50 vezes”, a decodificação especulativa entrega redução mensurável de latência end-to-end. Quando o modelo auxiliar prevê com confiabilidade o que o modelo principal geraria, o sistema pula uma fração substancial de etapas de decodificação do modelo principal. Nos testes, a latência entre tokens caiu para aproximadamente 15 ms por token (comparado aos aproximadamente 45 ms de prompts abertos), e a curva da especulação manteve-se consistentemente abaixo da baseline durante toda a execução.

    Prompts abertos: Para prompts como “Acredito que o significado da vida é”, a decodificação especulativa não oferece benefício consistente. O modelo auxiliar frequentemente diverge do modelo principal, causando rejeições de tokens que negam os ganhos potenciais. As curvas de latência end-to-end da especulação e da baseline se sobrepõem significativamente, com latência entre tokens permanecendo próxima aos 45 ms por token para ambas as configurações.

    Latência do primeiro token (TTFT): O TTFT permaneceu efetivamente inalterado entre as configurações, dominado pela fase de preenchimento (prefill) em que o modelo codifica o contexto de entrada. Como a decodificação especulativa não altera esse estágio, a latência de preenchimento não é nem melhorada nem degradada.

    Esses resultados indicam que a decodificação especulativa melhora a latência total reduzindo o número de etapas de decodificação do modelo principal executadas, não acelerando a etapa de decodificação em si ou a fase de preenchimento. Isso explica por que ganhos aparecem em latência end-to-end para prompts estruturados, mas estão ausentes em latência entre tokens e TTFT, e por que a decodificação especulativa retorna ao comportamento baseline para geração aberta.

    Sintonia de parâmetros na prática

    Os testes compararam modelos auxiliares Qwen3-0.6B e Qwen3-1.7B. O modelo menor (0.6B) era mais rápido para executar, mas sua taxa de aceitação era aproximadamente 60% menor, suficiente para cancelar a economia computacional. O Qwen3-1.7B atingiu um melhor equilíbrio entre velocidade e aceitação.

    Para num_speculative_tokens, foram avaliados valores entre 5 e 15. Configurações menores (por exemplo, 5) ofereciam aceleração limitada. Janelas maiores (por exemplo, 15) aumentavam rejeições e degradavam desempenho. A melhor configuração dependia fortemente da estrutura do prompt, testando tanto prompts estruturados (repetição, sequências numéricas, código simples) quanto linguagem natural aberta. O melhor equilíbrio resultou do Qwen3-1.7B com 7 tokens especulativos.

    Recursos e próximos passos

    Para começar com decodificação especulativa no AWS Trainium, a documentação oferece vários pontos de partida:

    Considerações finais

    As cargas de trabalho de modelos de linguagem intensivas em decodificação estão restritas pela natureza sequencial da geração autorregressiva. A decodificação especulativa no AWS Trainium2 rompe esse gargalo reduzindo o número de etapas de decodificação do modelo principal necessárias para produzir a saída completa, aumentando efetivamente os tokens gerados por passagem direta.

    Para cargas de trabalho onde o espaço de saída é previsível — como geração de código, extração de dados estruturados, geração de relatórios em template ou síntese de arquivos de configuração — isso pode se traduzir diretamente em custo menor por token de saída e maior throughput, sem sacrificar qualidade.

    A decodificação especulativa não é uma otimização universal. Sua efetividade depende da estrutura do prompt, qualidade do modelo auxiliar e sintonia de parâmetros especulativos. Quando aplicada às cargas de trabalho corretas, entrega melhorias significativas de latência e custo em sistemas de inferência baseados em Trainium.

    Fonte

    Accelerating decode-heavy LLM inference with speculative decoding on AWS Trainium and vLLM (https://aws.amazon.com/blogs/machine-learning/accelerating-decode-heavy-llm-inference-with-speculative-decoding-on-aws-trainium-and-vllm/)

  • AWS Payment Cryptography chega à América do Sul com região em São Paulo

    Expansão do AWS Payment Cryptography para a América do Sul

    A AWS anunciou a expansão global do AWS Payment Cryptography, que agora está disponível na região de São Paulo. Esta expansão é significativa para clientes na América do Sul que trabalham com aplicações de pagamento sensíveis à latência, permitindo que construam, implantem ou migrem seus sistemas para regiões adicionais da AWS sem necessidade de depender de suporte entre regiões.

    O que é o AWS Payment Cryptography

    O AWS Payment Cryptography é um serviço completamente gerenciado que simplifica operações criptográficas específicas de pagamento e o gerenciamento de chaves para aplicações de pagamento hospedadas na nuvem. Uma das principais vantagens do serviço é sua capacidade de escalar elasticamente conforme as necessidades do negócio crescem.

    O serviço foi avaliado e certificado como em conformidade com os requisitos PCI PIN (Personal Identification Number) e PCI P2PE (Point-to-Point Encryption), eliminando completamente a necessidade de manter instâncias dedicadas de HSM (Módulo de Segurança de Hardware) em data centers locais.

    Benefícios para Organizações de Pagamento

    Organizações que executam funções de pagamento — incluindo adquirentes, facilitadores de pagamento, redes de pagamento, switches, processadores e instituições bancárias — agora podem posicionar suas operações criptográficas de pagamento mais próximas de suas aplicações. Isso reduz significativamente as dependências de data centers auxiliares que mantêm HSMs dedicados para pagamento.

    Cobertura Global da AWS Payment Cryptography

    Atualmente, o AWS Payment Cryptography está disponível em um alcance global impressionante: Canadá (Montreal), US Leste (Ohio, Virgínia do Norte), US Oeste (Oregon), Europa (Irlanda, Frankfurt, Londres, Paris), América do Sul (São Paulo), África (Cidade do Cabo) e Ásia Pacífico (Singapura, Tóquio, Osaka, Mumbai, Hyderabad).

    Como Começar

    Para começar a utilizar o serviço, você pode baixar o AWS CLI/SDK mais recente e consultar a documentação do AWS Payment Cryptography para obter mais informações sobre implementação e configuração.

    Fonte

    AWS Payment Cryptography now available in South America (São Paulo) (https://aws.amazon.com/about-aws/whats-new/2026/04/aws-payment-cryptography-south/)

  • SDK Spring AI para Amazon Bedrock AgentCore Agora Disponível com Status de Disponibilidade Geral

    Agentes de IA em Produção: Simplificando a Complexidade

    A inteligência artificial agêntica está transformando a forma como as organizações utilizam modelos generativos. Em vez de simples interações de pergunta-resposta, os agentes agênticos conseguem planejar, executar e completar tarefas complexas em múltiplas etapas de forma autônoma. Embora as primeiras implementações desse tipo despertem entusiasmo nos stakeholders de negócio, escalar essas soluções para produção apresenta desafios significativos: escalabilidade, governança e segurança.

    A Amazon Bedrock AgentCore foi desenvolvida como uma plataforma de IA agêntica para construir, implantar e operar agentes em escala, utilizando qualquer framework e modelo. Mas havia um problema: desenvolvedores Java queriam construir esses agentes usando os padrões familiares do Spring, porém a implantação em produção exigia uma infraestrutura complexa de ser implementada do início.

    O Novo SDK Spring AI AgentCore

    Com o lançamento do SDK Spring AI AgentCore em disponibilidade geral, essa barreira foi removida. O SDK é uma biblioteca de código aberto que integra as capacidades do Amazon Bedrock AgentCore diretamente em aplicações Spring AI, usando padrões já conhecidos pelos desenvolvedores: anotações, auto-configuração e advisors compostos.

    Anteriormente, integrar essas capacidades em uma aplicação Spring exigia semanas de trabalho em infraestrutura: escrever controladores customizados, gerenciar streaming de Server-Sent Events (SSE), implementar verificações de saúde, controlar limitação de taxa (rate limiting) e conectar advisors do Spring, repositórios de memória e definições de ferramentas. Agora, basta adicionar uma dependência, anotar um método, e o SDK cuida do resto.

    Imagem original — fonte: Aws

    Capacidades Fundamentais do SDK

    Entendendo o Contrato do AgentCore Runtime

    O AgentCore Runtime gerencia o ciclo de vida e a escalabilidade dos agentes com modelo de preço por uso — você não paga por computação ociosa. O runtime roteia requisições de entrada para seu agente e monitora sua saúde, mas para isso exige que o agente siga um contrato específico.

    Esse contrato demanda dois endpoints principais: o endpoint /invocations recebe requisições e retorna respostas em formato JSON ou como streaming SSE, enquanto o endpoint de saúde /ping relata status Healthy (saudável) ou HealthyBusy (saudável mas ocupado). Tarefas de longa duração precisam sinalizar o status ocupado, caso contrário o runtime pode reduzi-las para economizar custos.

    O SDK implementa esse contrato automaticamente, incluindo detecção assíncrona de tarefas que reporta o status ocupado quando seu agente está processando. Além disso, oferece recursos adicionais para cargas de trabalho em produção, como tratamento apropriado de respostas SSE com framing correto, gerenciamento de backpressure e ciclo de vida de conexão para respostas grandes. Também fornece rate limiting para proteger o agente contra picos de tráfego e limitar o consumo por usuário.

    Design Principles do SDK

    O SDK foi construído sobre três princípios de design:

    Convenção em vez de configuração: Padrões sensatos se alinham com as expectativas do AgentCore (porta 8080, caminhos de endpoints, tratamento de content-type) sem necessidade de configuração explícita.

    Desenvolvimento orientado por anotações: Uma simples anotação @AgentCoreInvocation transforma qualquer método de um bean Spring em um endpoint compatível com AgentCore, com serialização automática, detecção de streaming e formatação de resposta.

    Flexibilidade de implantação: O SDK funciona tanto com o AgentCore Runtime para implantação totalmente gerenciada quanto com módulos individuais (Memória, Navegador, Interpretador de Código) em aplicações rodando em Amazon EKS, Amazon ECS ou qualquer outra infraestrutura.

    Construindo Seu Primeiro Agente

    Passo 1: Adicionar a Dependência

    Comece adicionando o BOM (Bill of Materials) Spring AI AgentCore ao seu projeto Maven, junto com o starter de runtime:

    <dependencyManagement>
      <dependencies>
        <dependency>
          <groupId>org.springaicommunity</groupId>
          <artifactId>spring-ai-agentcore-bom</artifactId>
          <version>1.0.0</version>
          <type>pom</type>
          <scope>import</scope>
        </dependency>
      </dependencies>
    </dependencyManagement>
    <dependencies>
      <dependency>
        <groupId>org.springaicommunity</groupId>
        <artifactId>spring-ai-agentcore-runtime-starter</artifactId>
      </dependency>
    </dependencies>

    Passo 2: Criar o Agente

    A anotação @AgentCoreInvocation informa ao SDK que o método manipula requisições de agentes. O SDK auto-configura os endpoints POST /invocations e GET /ping, gerencia a serialização JSON e relata o status de saúde automaticamente:

    @Service
    public class MyAgent {
      private final ChatClient chatClient;
    
      public MyAgent(ChatClient.Builder builder) {
        this.chatClient = builder.build();
      }
    
      @AgentCoreInvocation
      public String chat(PromptRequest request) {
        return chatClient.prompt()
          .user(request.prompt())
          .call()
          .content();
      }
    }
    
    record PromptRequest(String prompt) {}

    Passo 3: Configurar Amazon Bedrock

    Defina o modelo e a região AWS no arquivo application.properties:

    spring.ai.bedrock.aws.region=us-east-1
    spring.ai.bedrock.converse.chat.options.model=global.anthropic.claude-sonnet-4-5-20250929-v1:0

    Passo 4: Testar Localmente

    Inicie a aplicação e envie uma requisição:

    mvn spring-boot:run
    curl -X POST http://localhost:8080/invocations \
      -H "Content-Type: application/json" \
      -d '{"prompt": "What is Spring AI?"}'

    Pronto: um agente compatível com AgentCore completo, sem controladores customizados, sem manipulação de protocolo, sem implementação manual de verificação de saúde.

    Passo 5: Adicionar Streaming de Respostas

    Para fazer o agente transmitir respostas conforme são geradas, altere o tipo de retorno para Flux<String>. O SDK muda automaticamente para saída SSE:

    @AgentCoreInvocation
    public Flux<String> streamingChat(PromptRequest request) {
      return chatClient.prompt()
        .user(request.prompt())
        .stream()
        .content();
    }

    O SDK gerencia framing SSE, headers Content-Type, preservação de quebras de linha e ciclo de vida de conexão. Seu código permanece focado apenas na lógica de IA.

    Passo 6: Adicionar Memória ao Agente

    Agentes reais precisam lembrar o que usuários disseram anteriormente em uma conversa (memória de curto prazo) e o que aprenderam ao longo do tempo (memória de longo prazo). O SDK integra a AgentCore Memory através do padrão de advisors do Spring AI — interceptadores que enriquecem prompts com contexto antes de alcançarem o modelo.

    A memória de curto prazo mantém mensagens recentes em uma janela deslizante, enquanto a memória de longo prazo persiste conhecimento entre sessões usando quatro estratégias: Semântica (informações factuais sobre usuários), Preferência do Usuário (configurações e escolhas explícitas), Resumo (histórico de conversa condensado) e Episódica (interações passadas e lições aprendidas). O AgentCore consolida essas estratégias de forma assíncrona, extraindo informações relevantes sem intervenção manual do desenvolvedor.

    Adicione a dependência de memória e ative a auto-descoberta. No modo auto-descoberta, o SDK detecta automaticamente estratégias de memória de longo prazo disponíveis e namespaces sem configuração manual:

    agentcore.memory.memory-id=${AGENTCORE_MEMORY_ID}
    agentcore.memory.long-term.auto-discovery=true

    Depois, injete AgentCoreMemory e componha-o no cliente de chat:

    private final AgentCoreMemory agentCoreMemory;
    
    public MyAgent(ChatClient.Builder builder, AgentCoreMemory agentCoreMemory) {
      this.agentCoreMemory = agentCoreMemory;
      this.chatClient = builder.build();
    }
    
    @AgentCoreInvocation
    public String chat(PromptRequest request, AgentCoreContext context) {
      String sessionId = context.getHeader(AgentCoreHeaders.SESSION_ID);
      return chatClient.prompt()
        .user(request.prompt())
        .advisors(agentCoreMemory.advisors)
        .advisors(a -> a.param(ChatMemory.CONVERSATION_ID, "user:" + sessionId))
        .call()
        .content();
    }

    Passo 7: Estender Agentes com Ferramentas

    O AgentCore oferece ferramentas especializadas que o SDK expõe como callbacks de ferramenta do Spring AI através da interface ToolCallbackProvider.

    Automação de navegador: Agentes conseguem navegar em websites, extrair conteúdo, capturar telas e interagir com elementos da página usando o AgentCore Browser:

    <dependency>
      <groupId>org.springaicommunity</groupId>
      <artifactId>spring-ai-agentcore-browser</artifactId>
    </dependency>

    Interpretador de código: Agentes conseguem escrever e executar Python, JavaScript ou TypeScript em um sandbox seguro usando o AgentCore Code Interpreter. O sandbox inclui numpy, pandas e matplotlib. Arquivos gerados são capturados através do artifact store:

    <dependency>
      <groupId>org.springaicommunity</groupId>
      <artifactId>spring-ai-agentcore-code-interpreter</artifactId>
    </dependency>

    Ambas as ferramentas se integram através da interface ToolCallbackProvider do Spring AI. Aqui está o MyAgent final com memória, navegador e interpretador de código compostos em conjunto:

    @Service
    public class MyAgent {
      private final ChatClient chatClient;
      private final AgentCoreMemory agentCoreMemory;
    
      public MyAgent(
          ChatClient.Builder builder,
          AgentCoreMemory agentCoreMemory,
          @Qualifier("browserToolCallbackProvider") ToolCallbackProvider browserTools,
          @Qualifier("codeInterpreterToolCallbackProvider") ToolCallbackProvider codeInterpreterTools) {
        this.agentCoreMemory = agentCoreMemory;
        this.chatClient = builder
          .defaultToolCallbacks(browserTools, codeInterpreterTools)
          .build();
      }
    
      @AgentCoreInvocation
      public Flux<String> chat(PromptRequest request, AgentCoreContext context) {
        String sessionId = context.getHeader(AgentCoreHeaders.SESSION_ID);
        return chatClient.prompt()
          .user(request.prompt())
          .advisors(agentCoreMemory.advisors)
          .advisors(a -> a.param(ChatMemory.CONVERSATION_ID, "user:" + sessionId))
          .stream()
          .content();
      }
    }

    O modelo vê todas as ferramentas igualmente e decide qual usar baseado na requisição do usuário. Embora este artigo focalize Amazon Bedrock para acessar modelos de fundação, o Spring AI suporta múltiplos provedores LLM (Large Language Model), incluindo OpenAI e Anthropic, permitindo que você escolha os modelos que melhor se adequam às suas necessidades.

    Implantação do Agente

    O SDK suporta dois modelos de implantação:

    AgentCore Runtime: Para infraestrutura totalmente gerenciada, empacote sua aplicação como container ARM64, envie-a para o Amazon Elastic Container Registry (Amazon ECR), e crie um AgentCore Runtime que referencie a imagem. O runtime gerencia escalabilidade e monitoramento de saúde. O diretório examples/terraform fornece infraestrutura como código com opções de autenticação IAM e OAuth2.

    Implantação autônoma: Use módulos AgentCore de Memory, Browser ou Code Interpreter em aplicações rodando em Amazon EKS, Amazon ECS, Amazon EC2 ou on-premises. Com essa abordagem, equipes conseguem adotar capacidades AgentCore incrementalmente — por exemplo, adicionando memória a um serviço Spring Boot existente antes de migrar para o AgentCore Runtime posteriormente.

    Autenticação, Autorização e Ferramentas Corporativas

    O AgentCore Runtime suporta dois métodos de autenticação: SigV4 baseado em IAM para chamadas serviço-a-serviço AWS e OAuth2 para aplicações voltadas para usuários. Quando seu agente Spring AI é implantado no AgentCore Runtime, autenticação é gerenciada na camada de infraestrutura. Sua aplicação recebe a identidade do usuário autenticado através do AgentCoreContext, permitindo que autorização de granularidade fina seja implementada usando padrões Spring Security convencionais.

    Para implantações autônomas, sua aplicação Spring é responsável por fornecer autenticação e autorização usando Spring Security. Nesse caso, chamadas para serviços AgentCore são protegidas usando mecanismos padrão de credencial do AWS SDK.

    Agentes Spring AI conseguem acessar ferramentas corporativas através do AgentCore Gateway, que fornece suporte para Model Context Protocol (MCP) com autenticação de saída e registro semântico de ferramentas. Para usar o Gateway, configure seu endpoint MCP client para apontar ao AgentCore Gateway e autentique usando SigV4 IAM ou OAuth2, permitindo que agentes descubram e invoquem ferramentas corporativas enquanto o Gateway gerencia credenciais para serviços downstream.

    Próximos Passos e Recursos

    O SDK continua evoluindo. Integrações futuras incluem suporte a observabilidade com integração de tracing, métricas e logging do Spring AI, além de suporte a ferramentas externas como LangFuse, Datadog e Dynatrace usando OpenTelemetry. Também estão planejados frameworks de testes e avaliação de qualidade para respostas de agentes, e gerenciamento de identidade avançado.

    Para começar:

    • Explore o SDK Spring AI AgentCore SDK on GitHub. O repositório inclui aplicações de exemplo que você pode usar como ponto de partida.
    • Leia a documentação Amazon AgentCore para detalhes sobre Runtime, Memory, Browser e serviços Code Interpreter.
    • Experimente o console Amazon Bedrock para habilitar acesso a modelos e explorar modelos de fundação disponíveis.
    • Para um aprofundamento prático, tente o workshop Building Java AI agents with Spring AI and Amazon AgentCore. Em cerca de quatro horas, você constrói um assistente completo de gerenciamento de viagens e despesas, adicionando progressivamente persona, memória, recuperação de conhecimento, navegação web, execução de código, integração de ferramentas MCP e implanta sem servidor no AgentCore Runtime com autenticação e observabilidade. Nenhuma experiência prévia em IA/ML é necessária.

    A comunidade é bem-vinda para contribuir. Deixe um comentário para compartilhar sua experiência ou abra uma issue no GitHub repository.

    Fonte

    Spring AI SDK for Amazon Bedrock AgentCore is now Generally Available (https://aws.amazon.com/blogs/machine-learning/spring-ai-sdk-for-amazon-bedrock-agentcore-is-now-generally-available/)

  • Jornada da IA Generativa: O Framework Caminho-para-Valor da AWS

    Entendendo o desafio real da IA generativa

    A IA generativa está transformando a forma como as organizações abordam produtividade, experiências do cliente e capacidades operacionais. Equipes em diferentes setores experimentam essa tecnologia para descobrir novas formas de trabalhar. Muitos desses esforços geram provas de conceito (POC) convincentes que demonstram viabilidade técnica.

    O problema real começa após esses primeiros sucessos. Embora as POCs frequentemente comprovem a viabilidade técnica, as organizações enfrentam dificuldades para transformar esses protótipos em sistemas prontos para produção que gerem valor mensurável para o negócio. A transição do conceito para produção, e depois para criação de valor sustentado, apresenta desafios que vão além da tecnologia—envolvem questões organizacionais e de governança.

    A AWS desenvolveu o framework Caminho-para-Valor (P2V) para preencher essa lacuna. Ele fornece um modelo mental e um guia prático que ajuda as organizações a movimentar iniciativas de IA generativa de forma sistemática, desde a ideação e experimentação até a produção em escala. O objetivo é criar valor duradouro para o negócio.

    As quatro categorias principais de barreiras

    Quando as organizações transitam a IA generativa da fase experimental para produção e criação de valor, os desafios se concentram em quatro categorias principais.

    Imagem original — fonte: Aws

    Valor

    Muitas iniciativas de IA generativa carecem de um ROI claramente definido ou de resultados mensuráveis. Sem critérios de sucesso concretos, fica difícil justificar investimentos continuados ou priorizar esforços. O foco deve estar em tornar o sucesso mensurável e garantir que os investimentos gerem resultados reais.

    Risco

    Preocupações com exposição legal, privacidade de dados, vulnerabilidades de segurança e impacto reputacional criam resistência. O panorama regulatório em evolução para a IA aumenta ainda mais a incerteza em torno de conformidade. As organizações precisam estabelecer guardrails desde o início, não depois.

    Tecnologia

    Colocar IA generativa em produção apresenta desafios técnicos além da seleção do modelo. A integração com sistemas existentes, requisitos de infraestrutura, problemas de qualidade de dados e complexidade operacional (observabilidade, escalabilidade, resiliência) são frequentemente subestimados. Avaliação e validação continuam sendo desafios críticos antes da produção. As equipes devem estabelecer métricas, construir conjuntos de dados de teste, medir desempenho em diferentes cenários e implementar monitoramento contínuo.

    Pessoas

    A adoção é desacelerada por resistência à mudança, lacunas de habilidades nas equipes, incerteza sobre como a IA generativa afeta papéis e responsabilidades, e dificuldades em encontrar ou desenvolver a expertise correta. Essas barreiras raramente aparecem isoladamente. Resolver uma sem abordar as outras frequentemente apenas desloca o problema em vez de solucioná-lo.

    O framework Caminho-para-Valor

    O framework P2V serve como um modelo mental compartilhado e um roteiro para stakeholders técnicos e não-técnicos. Fornece orientação sobre o ciclo de vida de workloads de IA generativa, desde a ideação inicial, passando pela implementação pronta para produção, até a realização de valor sustentado.

    Ao invés de tratar a produção como o objetivo final, o framework a posiciona como um marco no caminho para o impacto comercial. Seu propósito é ajudar as organizações a remover os bloqueadores mais comuns que impedem iniciativas de IA generativa de escalar com sucesso.

    Estrutura do framework

    O framework traduz experiências de implementação do mundo real em orientação prática por meio de três componentes principais: pilares (que representam as áreas-chave a serem abordadas), pontos de verificação (que esclarecem o que significa estar pronto em diferentes estágios) e orientação com artefatos (que fornecem ferramentas concretas para apoiar a execução).

    Um sistema interconectado, não um processo linear

    O framework P2V não é concebido para ser aplicado como um processo linear e sequencial. A adoção de IA generativa raramente avança em linha reta. As organizações devem aplicar o framework com flexibilidade e de forma assíncrona, abordando múltiplos pilares em paralelo. Por exemplo, as equipes podem simultaneamente construir capacidades técnicas enquanto estabelecem guardrails de governança e desenvolvem casos de negócio para diferentes casos de uso. Essa abordagem paralela pode acelerar significativamente o caminho geral para produção e valor.

    Imagem original — fonte: Aws

    Os pilares principais do framework

    O framework P2V se organiza em torno de um conjunto de pilares fundamentais. Cada pilar define uma dimensão crítica que deve ser abordada para mover iniciativas de IA generativa da experimentação para produção e valor comercial sustentado.

    Caso de negócio e criação de valor

    Em um mercado competitivo, investimentos em IA generativa devem demonstrar retornos claros. Este pilar foca em definir e medir resultados comerciais para que as iniciativas avancem além de provas de conceito em direção a soluções em produção que entregam valor quantificável.

    As áreas de foco incluem criar um template estruturado para documentar a proposta de valor e resultados esperados, estabelecer uma matriz de decisão sobre custos para avaliar custos de implementação contra retornos potenciais (incluindo técnicas de otimização como cache de prompts, destilação de conhecimento e roteamento inteligente de modelos), e definir métricas de negócio claras para medir impacto e desempenho.

    Estratégia de dados

    Dados de qualidade são a fundação de IA bem-sucedida. Este pilar enfatiza a integração de dados de alta qualidade de sistemas de conhecimento corporativo, em vez de depender de modelos cada vez mais complexos. Ao focar em qualidade, governança e integração de dados, as organizações frequentemente conseguem melhores resultados com menor complexidade técnica.

    O foco inclui estabelecer diretrizes para coleta e pré-processamento de dados relevantes, definir padrões para precisão e confiabilidade, criar frameworks para gerenciar e governar ativos de dados, definir critérios para datasets de referência usados em treinamento, e construir pipelines eficientes de processamento de dados que mantenham qualidade ao longo do ciclo de vida da IA.

    Segurança, conformidade e governança

    À medida que a IA generativa se torna crítica para operações comerciais, a implementação responsável é essencial. Este pilar estabelece os guardrails necessários para escalar a IA generativa com confiança, permitindo que as organizações construam segurança, conformidade e governança desde o início, em vez de adicioná-las depois.

    As áreas críticas incluem definir protocolos de acesso a sistemas e dados, implementar mecanismos de segurança para evitar uso indevido, aplicar padrões consistentes para proteger modelos e endpoints, escalar controles de nível POC para protocolos de segurança em nível de produção, e estabelecer frameworks de autossupervisão para desenvolvimento responsável de IA.

    Avaliação de escolhas tecnológicas

    Selecionar a abordagem correta em IA generativa exige mais do que comparar especificações técnicas. Este pilar alinha decisões tecnológicas com objetivos comerciais, fornecendo orientação clara sobre estratégias de implementação e otimização de recursos. As áreas de foco incluem avaliar diferentes arquiteturas de modelos usando critérios consistentes, aplicar abordagens estruturadas para decisões de seleção de tecnologia, planejar transições entre abordagens de IA generativa conforme os requisitos evoluem, e avaliar considerações para sistemas que lidam com múltiplos tipos de dados.

    IA responsável

    IA responsável agora é um requisito central para adoção empresarial. Este pilar estabelece guardrails que abordam conformidade regulatória enquanto constroem confiança com stakeholders. As organizações que operacionalizam IA responsável no início podem acelerar aprovações e fortalecer sua posição competitiva.

    O foco inclui avaliar implicações de sourcing e propriedade do modelo, implementar técnicas que preservam privacidade em dados e workflows de inferência, identificar e abordar implicações de IA responsável em casos de uso, detectar e reduzir viés algorítmico, e apoiar a capacidade de entender e explicar decisões orientadas por IA.

    Ciclo de vida de desenvolvimento

    Entregar IA generativa com sucesso em produção exige selecionar a abordagem técnica correta sem se perder em complexidade. Este pilar fornece orientação clara para avaliação, arquitetura e implementação, de modo que decisões técnicas permaneçam alinhadas com resultados comerciais e eficiência de custos conforme os sistemas escalam.

    As áreas de foco incluem definir padrões para medir desempenho de modelos e validar comportamento, estabelecer abordagens estruturadas de teste e validação, aplicar diferentes métodos de avaliação para testes pré-produção versus uso ao vivo, e integrar julgamento humano ao longo do ciclo de vida de IA para melhorar precisão, segurança e alinhamento.

    Excelência operacional

    A diferença entre implementações bem-sucedidas de IA generativa e experimentos estagnados vem down à execução operacional. Este pilar foca em executar sistemas de IA generativa de forma confiável em produção por meio de otimização contínua, monitoramento de KPI e gestão disciplinada de custos. Mecanismos de feedback robustos ajudam os sistemas a melhorar ao longo do tempo enquanto mantêm desempenho previsível.

    O foco está em tratar a IA generativa como um workload em produção de longa duração, não como uma implementação única. As áreas críticas incluem estabelecer diretrizes para gerenciamento de produção do dia a dia, lidar com demanda variável como picos de tráfego de inferência, manter visibilidade sobre comportamento e falhas do sistema, simplificar atualizações de modelos e configurações, administrar e otimizar recursos de tempo de execução, manter latência e throughput consistentes em escala, e continuamente refinar modelos com base em sinais de produção.

    Desenvolvimento de habilidades e treinamento

    O sucesso sustentado em IA generativa depende tanto de pessoas quanto de tecnologia. Este pilar foca em construir as habilidades e prontidão organizacional necessárias para adotar, operar e escalar IA generativa de forma eficaz. O objetivo é garantir que capacidades técnicas se traduzam diretamente em valor comercial. Ao alinhar treinamento com casos de uso reais e medir impacto, as organizações podem impulsionar adoção enquanto mantêm um link claro entre esforços de habilitação e resultados.

    Imagem original — fonte: Aws

    A jornada de adoção de IA generativa

    O framework P2V, como um modelo mental, simplifica a jornada de adoção de IA generativa. Fornece um sistema flexível e interconectado que guia as organizações através de fases críticas, desde desenvolvimento inicial de conceito, passando por implementação pronta para produção, até criação de valor sustentável.

    Como um framework agnóstico em relação à indústria, caso de uso e tecnologia, ele pode ser aplicado em diversos contextos e cenários organizacionais. Ao invés de otimizar para um único estágio, o framework aborda sistematicamente as dimensões que determinam sucesso a longo prazo: criação de valor, gerenciamento de risco, rigor técnico e transformação de pessoas.

    As organizações podem entrar na jornada quando desejarem e progredir em seu próprio ritmo mantendo alinhamento com objetivos comerciais e práticas de IA responsável. O framework P2V não é intencionalmente uma abordagem rígida e em cascata. Serve como guia proativo e ferramenta diagnóstica, ajudando organizações que lutam com implementação em produção ou realização de valor a identificar rapidamente lacunas e desenvolver caminhos customizados para frente.

    Amazon Bedrock como motor de execução

    O serviço Amazon Bedrock (a plataforma para construir aplicações e agentes de IA generativa em escala de produção) ajuda as organizações a executar a jornada Caminho-para-Valor ao simplificar a transição de conceito para produção. Fornece um ambiente unificado para implementação de IA generativa que aborda elementos-chave do framework P2V como acesso a modelos, segurança e escalabilidade. Ao oferecer infraestrutura gerenciada, controles de governança incorporados e capacidades de integração empresarial, o Amazon Bedrock reduz fricção operacional e acelera prontidão para produção. Isso permite que as equipes se concentrem menos em preocupações infraestruturais não diferenciadas e mais em aplicar o framework P2V para entregar resultados comerciais mensuráveis.

    Imagem original — fonte: Aws

    Desenvolvendo IA generativa com velocidade e controle

    O framework P2V aborda o que as organizações precisam acertar ao longo da jornada de IA generativa, mas a velocidade dessa jornada depende muito de como as equipes desenvolvem. Práticas tradicionais de desenvolvimento de software, projetadas para processos sequenciais orientados por humanos, frequentemente se tornam o gargalo oculto que estagna iniciativas entre prova de conceito e produção.

    O Ciclo de Vida de Desenvolvimento Orientado por IA (IA-DLC) aborda isso posicionando IA como um colaborador central, não apenas um assistente de codificação. Reimagina o ciclo de vida inteiro em torno de um padrão poderoso: IA ajuda a criar planos, busca clarificação e apoia implementação, enquanto humanos tomam decisões críticas. As três fases do IA-DLC (Inception, Construção e Operações) espelham a jornada P2V de conceito através de produção para valor sustentado, com potencial para comprimir ciclos de desenvolvimento de semanas para horas enquanto mantém trabalho técnico alinhado com resultados comerciais e requisitos de governança.

    Conclusão

    O framework Caminho-para-Valor da IA Generativa oferece um modelo mental abrangente para navegar as complexidades da adoção de IA generativa. Ao fornecer orientação ao longo da jornada completa, desde conceito até pronto para produção e criação de valor, o framework ajuda as organizações a abordar desafios comuns em cada estágio.

    Para organizações com iniciativas de IA generativa estagnadas, o framework oferece orientação direcionada para diagnosticar bloqueadores e adaptar um caminho para frente. Ajuda a garantir que muitos aspectos de implementação bem-sucedida sejam considerados.

    À medida que a IA generativa continua evoluindo, este modelo mental pode servir como um recurso valioso para organizações buscando usar essa tecnologia em escala.

    Fonte

    Navigating the generative AI journey: The Path-to-Value framework from AWS (https://aws.amazon.com/blogs/machine-learning/navigating-the-generative-ai-journey-the-path-to-value-framework-from-aws/)

  • AWS Secrets Manager agora protege segredos contra ameaças quânticas com TLS pós-quântico híbrido

    Proteção Contra Ameaças Quânticas no Gerenciamento de Segredos

    A AWS anunciou que o Secrets Manager agora oferece suporte a troca de chaves pós-quântica híbrida utilizando ML-KEM (Mecanismo de Encapsulamento de Chave Baseado em Módulos Lattice). Esse novo recurso fortalece as conexões TLS usadas para recuperar e gerenciar segredos, combinando a segurança criptográfica clássica com proteção contra ameaças futuras relacionadas à computação quântica.

    Ativação Automática e Compatibilidade

    O suporte a troca de chaves pós-quântica está automaticamente habilitado nas versões mais recentes dos principais componentes de integração:

    • Secrets Manager Agent (versão 2.0.0+)
    • AWS Lambda Extension (versão 19+)
    • Secrets Manager CSI Driver (versão 2.0.0+)

    Para clientes que utilizam bibliotecas de cliente baseadas em SDKs, a troca de chaves pós-quântica está disponível nos seguintes ambientes: Rust, Go, Node.js, Kotlin, Python (com OpenSSL 3.5+) e Java v2 (v2.35.11+).

    Proteção Contra Ataques “Harvest Now, Decrypt Later”

    As aplicações agora recuperam segredos por meio de conexões TLS que combinam troca de chaves clássica com criptografia pós-quântica. Isso oferece proteção simultânea contra dois cenários de segurança: ataques criptográficos tradicionais e ameaças futuras conhecidas como “harvest now, decrypt later” (HNDL), em que adversários capturam dados criptografados hoje para descriptografá-los após o desenvolvimento de computadores quânticos.

    Implementação Sem Mudanças de Código

    Um dos diferenciais dessa implementação é a simplicidade de adoção. Para clientes utilizando as versões mais recentes dos componentes de integração, nenhuma alteração de código, atualização de configuração ou esforço de migração são necessários — com exceção de clientes Java v2.

    Um exemplo prático: um microsserviço que requer múltiplos segredos durante inicialização agora pode recuperá-los por conexões TLS resistentes a ataques quânticos simplesmente atualizando para a versão mais recente do Secrets Manager Agent.

    Verificação e Monitoramento

    É possível confirmar que a troca de chaves pós-quântica híbrida está ativa consultando os registros do CloudTrail. Basta verificar a presença do algoritmo de troca de chaves “X25519MLKEM768” no campo tlsDetails das chamadas da API GetSecretValue.

    Disponibilidade Regional

    A troca de chaves pós-quântica híbrida usando ML-KEM para o Secrets Manager está disponível em todas as regiões da AWS onde o serviço é oferecido.

    Próximos Passos

    Para aprofundar o conhecimento técnico, é recomendado consultar a documentação do AWS Secrets Manager e a página de migração para criptografia pós-quântica da AWS, que oferecem guias detalhados sobre a implementação e as melhores práticas.

    Fonte

    AWS Secrets Manager now supports hybrid post-quantum TLS to protect secrets from quantum threats (https://aws.amazon.com/about-aws/whats-new/2026/04/aws-secrets-manager-post-quantum-tls/)

  • Padrões Seguros de Acesso para Agentes de IA a Recursos AWS Usando Model Context Protocol

    Segurança de Agentes de IA Acessando Recursos AWS

    A inteligência artificial generativa trouxe uma nova categoria de aplicações: os agentes de IA e assistentes de codificação. Diferente das aplicações tradicionais com fluxos de código previsíveis, esses agentes raciocinam dinamicamente, escolhendo diferentes ferramentas e acessando diferentes dados conforme o contexto. Essa característica fundamental muda completamente a abordagem de segurança necessária.

    O acesso desses agentes aos recursos da AWS acontece frequentemente através do Model Context Protocol (MCP). A AWS publicou orientações técnicas focadas especificamente em como garantir que esse acesso seja seguro, apresentando três princípios de segurança para construir controles determinísticos em sistemas não-determinísticos de IA.

    Entendendo o Problema de Segurança

    O desafio fundamental é que você deve assumir que um agente pode fazer qualquer coisa dentro de suas permissões concedidas, independentemente da intenção original. Diferente de uma aplicação tradicional onde você revisa o código e entende exatamente quais APIs serão chamadas, um agente pode invocar diferentes ferramentas em diferentes contextos.

    Agentes operam em velocidade de máquina, o que significa que o impacto de permissões mal configuradas escala rapidamente. Um agente pode fazer milhares de chamadas de API em segundos. Se receber permissões excessivas, pode causar danos significativos antes de qualquer detecção humana.

    A AWS Identity and Access Management (IAM) é a camada de autorização para acesso aos recursos AWS. O foco da orientação é em como usar IAM de forma adequada, considerando a natureza não-determinística dos agentes de IA.

    Padrões de Implantação do MCP

    Onde os Agentes Executam

    Os agentes acessam recursos AWS de três locais distintos. O primeiro padrão é em máquinas de desenvolvimento, como assistentes de IA (ex: Kiro e Claude Code) executando localmente. Neste caso, as credenciais vêm do ambiente local do desenvolvedor, e o desenvolvedor controla qual principal IAM o agente usa.

    O segundo padrão é em ambientes de hospedagem gerenciados pela organização, como Amazon Bedrock AgentCore, Amazon EC2 ou Amazon EKS. Aqui, o agente usa um papel IAM de execução configurado pela organização.

    O terceiro padrão é em plataformas de agentes de terceiros, onde a organização não controla a infraestrutura. Este artigo se concentra nos dois primeiros padrões.

    Tipos de Servidores MCP

    Existem dois tipos de servidores MCP. Os servidores gerenciados pela AWS, como o AWS MCP Server, Amazon EKS MCP Server e Amazon ECS MCP Server, rodam na infraestrutura AWS sem necessidade de instalação.

    Os servidores auto-gerenciados são aqueles que você instala e mantém você mesmo, incluindo servidores fornecidos pela AWS no AWS MCP GitHub repository ou servidores customizados que você constrói do zero.

    A diferença de segurança é importante: os servidores gerenciados pela AWS adicionam automaticamente chaves de contexto IAM a cada chamada de serviço AWS downstream. Os servidores auto-gerenciados não fazem isso automaticamente; você precisa configurá-los para adicionar tags de sessão ao assumir papéis IAM.

    Princípio 1: Assuma que Todas as Permissões Concedidas Podem Ser Usadas

    Este é o princípio fundamental. Qualquer permissão que você conceda a um agente pode ser exercida, regardless da sua intenção original. Se você concede s3:DeleteObject, deve assumir que o agente pode deletar qualquer objeto S3 ao qual tem acesso.

    As aplicações tradicionais seguem caminhos de código determinísticos. Você revisa o código-fonte e identifica exatamente quais APIs serão chamadas. Agentes de IA operam diferente. Eles tomam decisões em tempo de execução baseadas em raciocínio e contexto.

    Cenários de Risco

    Alucinação: O agente interpreta mal uma solicitação e realiza a ação errada. Um agente designado para limpar arquivos temporários pode alucinar que dados de produção são temporários e deletá-los.

    Injeção de prompt: Um terceiro malicioso elabora entrada inesperada que influencia o raciocínio do agente. Um agente designado para consultar tabelas Amazon DynamoDB poderia ser direcionado a chamar operações de escrita em recursos fora de seu escopo.

    Erros de lógica: O raciocínio do agente leva a uma conclusão incorreta. Um agente analisando custos de armazenamento S3 pode concluir que dados frequentemente acessados são não utilizados e deletá-los para economizar.

    Envenenamento de ferramentas: Um servidor MCP comprometido ou dependência realiza operações não intencionais usando as credenciais do agente.

    Implementação Prática

    Aplique o princípio de menor privilégio rigorosamente. Se um agente precisa apenas ler objetos S3, conceda apenas s3:GetObject, não s3:*. Use condições de política IAM para limitar permissões a recursos específicos.

    Considere implementar perímetros de dados como camada adicional de defesa. Use alarmes do CloudWatch para monitorar ações inesperadas do agente. Conduza auditorias regulares de permissões para identificar e remover acessos que não são mais necessários.

    Princípio 2: Orientação Organizacional sobre Uso de Papéis

    Este princípio aborda governança organizacional. Quando desenvolvedores usam assistentes de IA e configuram servidores MCP, frequentemente escolhem papéis existentes que foram designados para uso humano com permissões muito mais amplas que os agentes realmente precisam.

    Para Agentes que Você Controla

    Quando você controla o código do agente, pode implementar gerenciamento de credenciais dinâmico. Este é o modelo de execução mais forte. O papel IAM define o teto máximo de permissões, mas você usa políticas de sessão para restringir permissões por operação específica.

    Quando o agente invoca uma ferramenta específica, chama AssumeRole com uma política de sessão que restringe permissões apenas ao que essa ferramenta requer. As permissões efetivas são a interseção das políticas do papel e da política de sessão.

    import boto3
    
    sts = boto3.client('sts')
    
    response = sts.assume_role(
        RoleArn='arn:aws:iam::111122223333:role/AgentDataRole',
        RoleSessionName='agent-data-reader',
        PolicyArns=[
            {'arn': 'arn:aws:iam::aws:policy/ReadOnlyAccess'}
        ],
        DurationSeconds=3600
    )
    
    credentials = response['Credentials']
    s3 = boto3.client(
        's3',
        aws_access_key_id=credentials['AccessKeyId'],
        aws_secret_access_key=credentials['SecretAccessKey'],
        aws_session_token=credentials['SessionToken']
    )

    Para Assistentes de IA Configurados

    Quando você usa assistentes de IA com configuração fixa (como Kiro ou Claude Code), seus controles de segurança devem estar em lugar antes do agente executar. Crie papéis específicos para agentes com permissões mais restritas que papéis equivalentes de humanos.

    Use limites de permissão IAM para estabelecer governança organizacional. Um limite de permissão é uma política gerenciada que sua equipe de segurança anexa a um papel IAM para definir as permissões máximas que esse papel pode conceder. As permissões efetivas são a interseção das políticas de identidade do papel e do limite de permissão.

    Para ambientes multi-conta, use AWS Organizations e políticas de controle de serviço (SCPs) para estabelecer limites máximos de permissões em toda a organização.

    Princípio 3: Diferenciar Ações Orientadas por IA de Ações Iniciadas por Humanos

    Este terceiro princípio adiciona um nível complementar de controle. Enquanto o princípio 2 governa quais permissões um agente tem, este princípio governa o que o agente pode fazer com essas permissões baseado em se a ação é orientada por IA ou iniciada por humano.

    Sem mecanismo de diferenciação, políticas IAM não podem distinguir entre ações de IA e iniciadas por humano. Se um desenvolvedor tem permissão s3:DeleteObject e usa um agente com suas credenciais, o agente também tem essa permissão sem forma de restringir.

    Servidores MCP Gerenciados pela AWS

    Os servidores gerenciados pela AWS oferecem diferenciação por padrão. Eles adicionam automaticamente as chaves de contexto IAM aws:ViaAWSMCPService (booleano true quando a solicitação vem através de um servidor MCP gerenciado) e aws:CalledViaAWSMCP (string contendo o nome do servidor MCP) a cada chamada de serviço AWS downstream.

    Você precisa apenas escrever políticas IAM que verifiquem essas chaves. A seguinte política nega operações de delete quando acessadas através de qualquer servidor MCP gerenciado:

    {
      "Version": "2012-10-17",
      "Statement": [{
        "Sid": "AllowS3ReadOperations",
        "Effect": "Allow",
        "Action": [
          "s3:GetObject",
          "s3:ListBucket"
        ],
        "Resource": "*"
      }, {
        "Sid": "DenyDeleteWhenAccessedViaMCP",
        "Effect": "Deny",
        "Action": [
          "s3:DeleteObject",
          "s3:DeleteBucket"
        ],
        "Resource": "*",
        "Condition": {
          "Bool": {
            "aws:ViaAWSMCPService": "true"
          }
        }
      }]
    }

    Servidores MCP Auto-Gerenciados

    Servidores auto-gerenciados não adicionam chaves de contexto automaticamente. Para implementar diferenciação, você deve configurar o servidor MCP para adicionar tags de sessão ao assumir papéis IAM. Isso requer modificar seu servidor MCP para chamar AssumeRole com tags anexadas:

    import boto3
    
    sts = boto3.client('sts')
    
    response = sts.assume_role(
        RoleArn='arn:aws:iam::111122223333:role/MCPServerRole',
        RoleSessionName='mcp-server-session',
        Tags=[
            {'Key': 'AccessType', 'Value': 'AI'},
            {'Key': 'Source', 'Value': 'AgentRuntime'},
            {'Key': 'MCPServer', 'Value': 'org-data-server'}
        ]
    )
    
    credentials = response['Credentials']

    Você então escreve políticas IAM que verificam essas tags usando a chave de condição aws:PrincipalTag para diferenciar ações de agentes:

    {
      "Version": "2012-10-17",
      "Statement": [{
        "Sid": "AllowS3ReadOperations",
        "Effect": "Allow",
        "Action": [
          "s3:GetObject",
          "s3:ListBucket"
        ],
        "Resource": "*"
      }, {
        "Sid": "DenyDeleteWhenAccessedViaAI",
        "Effect": "Deny",
        "Action": [
          "s3:DeleteObject",
          "s3:DeleteBucket"
        ],
        "Resource": "*",
        "Condition": {
          "StringEquals": {
            "aws:PrincipalTag/AccessType": "AI"
          }
        }
      }]
    }

    Monitoramento através de CloudTrail

    Ambos os mecanismos de diferenciação geram logs no AWS CloudTrail. Para servidores gerenciados, chamadas originadas de MCP aparecem com identificadores de serviço MCP nos campos da solicitação. Para servidores auto-gerenciados, as tags de sessão aparecem no campo requestParameters.principalTags do evento AssumeRole.

    Com esses logs, você pode consultar CloudTrail para encontrar todas as ações orientadas por IA e analisar padrões de comportamento do agente. Configure alarmes para detectar ações de agentes em recursos sensíveis ou padrões incomuns.

    Considerações Importantes

    Quando agentes usam ferramentas de propósito geral como bash ou shell para executar comandos AWS CLI ou scripts Python, a solicitação vai direto para AWS, contornando completamente os servidores MCP. Nestes casos, as chaves de contexto de diferenciação não são aplicadas.

    Os controles de diferenciação garantem o caminho de acesso MCP. Para caminhos de acesso direto, os princípios 1 e 2 são seus controles primários. Se o papel não tem permissão s3:DeleteObject, o agente não pode deletar objetos, independentemente do caminho.

    Você pode usar frameworks de agentes e ambientes de hospedagem para limitar quais ferramentas um agente pode acessar, removendo capacidades de execução de propósito geral para agentes que interagem com AWS exclusivamente através de servidores MCP.

    Síntese Prática

    Comece com o Princípio 1: audite as permissões atuais do agente e padrão para acesso somente leitura quando possível. Em seguida, implemente o Princípio 2 estabelecendo limites de permissão e selecionando papéis específicos para agentes. Finalmente, adicione diferenciação do Princípio 3 baseada no tipo de seu servidor MCP.

    Para servidores gerenciados pela AWS, use as chaves de contexto automáticas em suas políticas IAM. Para servidores auto-gerenciados, configure tags de sessão e refira-se a elas em suas políticas.

    Fonte

    Secure AI agent access patterns to AWS resources using Model Context Protocol (https://aws.amazon.com/blogs/security/secure-ai-agent-access-patterns-to-aws-resources-using-model-context-protocol/)

  • AWS Transform agora está disponível no Kiro e VS Code

    AWS Transform chega a novos ambientes de desenvolvimento

    A AWS anunciou a disponibilidade do AWS Transform através de duas ferramentas adicionais para desenvolvedores: Kiro e VS Code. Esse movimento representa uma estratégia de trazer capacidades de migração e modernização diretamente para os ambientes onde os times já trabalham, eliminando a necessidade de mudar de contexto ou trocar de plataforma.

    O serviço foi concebido como uma “fábrica agentic” de migração e modernização, desenhada para comprimir cronogramas de transformação empresarial — reduzindo períodos que historicamente duravam anos para apenas meses. A proposta é eliminar problemas comuns em programas de grande escala, como transferências manuais de contexto e interrupções que costumam paralisar esses projetos.

    Transformações customizadas ao alcance dos desenvolvedores

    Com este lançamento, profissionais podem começar a trabalhar com transformações customizadas do AWS Transform diretamente de onde já atuam. Basta instalar o AWS Transform Power no Kiro ou a extensão do AWS Transform no VS Code.

    As transformações customizadas permitem atacar débito técnico em escala. A AWS oferece transformações gerenciadas para padrões comuns, como atualizações de versão em Java, Python e Node.js, além de migrações de SDK da AWS (de boto2 para boto3, Java SDK v1 para v2, e JS SDK v2 para v3). Equipes também podem definir suas próprias transformações personalizadas conforme necessário.

    Flexibilidade e integração entre ferramentas

    Essas novas interfaces tornam mais fácil descobrir capacidades adicionais à medida que ficam disponíveis, construir e iterar sobre transformações customizadas, e executar qualquer agente repetidamente ou across thousands of repositories de uma vez. As transformações customizadas são o primeiro elemento de uma biblioteca em crescimento de playbooks que chegarão às ferramentas de desenvolvimento.

    O desenho complementa o console web e a interface de linha de comando (CLI) já existentes do AWS Transform. Isso permite que desenvolvedores iniciem um job na IDE (Integrated Development Environment), acompanhem o progresso no console web, e finalizem transformações onde fizer mais sentido — com estado do job e contexto compartilhados entre todas as superfícies.

    Disponibilidade regional

    O AWS Transform oferece suporte para implantação em todas as regiões comerciais da AWS. As transformações customizadas estão disponíveis em US East (N. Virginia) e Europe (Frankfurt).

    Para obter mais detalhes técnicos e começar a usar o serviço, acesse a página do produto e o guia do usuário do AWS Transform.

    Fonte

    AWS Transform is now available in Kiro and VS Code (https://aws.amazon.com/about-aws/whats-new/2026/04/aws-transform-kiro-vscode/)

  • Implantações Otimizadas por Caso de Uso no SageMaker JumpStart

    Acesso Rápido a Modelos Pré-treinados para IA

    O Amazon SageMaker JumpStart oferece uma biblioteca de modelos pré-treinados que abrangem diversos tipos de problemas, facilitando o início de projetos de inteligência artificial. A plataforma disponibiliza soluções para os principais casos de uso, que podem ser implantadas em endpoints de Inferência Gerenciada do SageMaker AI ou em clusters SageMaker HyperPod. Com opções de implantação pré-configuradas, os usuários conseguem transitar rapidamente da seleção do modelo até sua colocação em produção.

    O Desafio das Implantações Genéricas

    As implantações através do SageMaker JumpStart sempre foram rápidas e diretas. Os clientes podiam selecionar opções baseadas no número esperado de usuários simultâneos, mantendo visibilidade sobre métricas como latência P50, tempo até o primeiro token (TTFT) e vazão (tokens por segundo por usuário).

    Porém, as opções de configuração de usuários simultâneos, embora úteis para cenários genéricos, não levariam em conta as características específicas das tarefas. A AWS reconheceu que clientes utilizam o SageMaker JumpStart para aplicações bastante distintas e especializadas — geração de conteúdo, resumização de textos, sistemas de perguntas e respostas, entre outras. Cada uma dessas aplicações demanda configurações particulares para otimizar desempenho.

    Além disso, a definição de “desempenho” vai além da latência. Alguns clientes priorizam vazão, enquanto outros buscam minimizar o custo por token. Essas variações exigiam abordagens de implantação mais granulares e direcionadas.

    Implantações Otimizadas por Caso de Uso

    Respondendo a essas necessidades, a AWS anunciou o lançamento das implantações otimizadas do SageMaker JumpStart. Essa capacidade oferece configurações de implantação pré-definidas, cada uma elaborada especificamente para um caso de uso determinado, resolvendo a demanda por customização clara e direta.

    Os clientes mantêm o mesmo nível de transparência sobre os detalhes de suas implantações propostas, mas agora as configurações são otimizadas para o caso de uso específico e para a restrição de desempenho desejada. Essa abordagem combina facilidade de uso com precisão técnica.

    Preparação para Começar

    Para utilizar as implantações otimizadas do SageMaker JumpStart, são necessários os seguintes pré-requisitos:

    Com esses componentes em lugar, os usuários podem começar a usar as implantações otimizadas imediatamente.

    Iniciando uma Implantação Otimizada

    O processo de configuração é direto. Primeiro, abre-se o SageMaker Studio e acessa-se a seção de Modelos. Em seguida, seleciona-se um dos modelos que suportam implantações otimizadas (listados na próxima seção) e clica-se em “Deploy” no canto superior direito.

    A tela que se abre apresenta uma nova seção expansível denominada “Performance”, que contém as opções para implantações otimizadas. Antes de mais nada, pede-se ao usuário que escolha um caso de uso. Para modelos baseados em texto, esses casos de uso podem variar desde escrita generativa até interações em estilo de chat. Suporte para imagem e vídeo virá com futuras atualizações.

    Fonte: Aws

    Após selecionar o caso de uso, o usuário precisa escolher uma das três otimizações de restrição: Otimizado para Custo, Otimizado para Vazão e Otimizado para Latência. Existe também uma opção Balanceada para quem busca o melhor desempenho médio entre todas as métricas registradas.

    Uma vez selecionada, uma configuração de implantação pré-definida é gerada para o endpoint. Os usuários podem revisar e ajustar valores adicionais como timeouts, nomenclatura do endpoint e configurações de segurança. Após completar a configuração, basta clicar em “Deploy” no canto inferior direito para finalizar.

    Modelos Disponíveis para Implantação Otimizada

    As implantações otimizadas do SageMaker JumpStart estão disponíveis para o seguinte conjunto de modelos:

    Modelos Meta Llama

    • Llama-3.1-8B-Instruct
    • Llama-2-7b-hf
    • Llama-3.2-3B
    • Meta-Llama-3-8B
    • Llama-3.2-1B-Instruct
    • Llama-3.2-1B
    • Llama-3.1-70B-Instruct
    • Llama-3.2-3B-Instruct
    • Meta-Llama-3-8B

    Modelos Microsoft Phi

    • Phi-3-mini-4k-instruct

    Modelos Mistral AI

    • Mistral-7B-Instruct-v0.2
    • Mistral-Small-24B-Instruct-2501
    • Mistral-7B-v0.1
    • Mistral-7B-Instruct-v0.3
    • Mixtral-8x7B-Instruct-v0.1

    Modelos Qwen

    • Qwen3-8B
    • Qwen3-32B
    • Qwen3-0.6B
    • Qwen2.5-7B-Instruct
    • Qwen2.5-72B-Instruct
    • Qwen2-VL-7B-Instruct
    • Qwen2-1.5B-Instruct

    Modelos Google Gemma

    • gemma-7b
    • gemma-7b-it
    • gemma-2b

    Outros Modelos

    • Tiiuae Falcon3-1B-Instruct

    Esses modelos formam o lançamento inicial das implantações otimizadas, e a AWS está expandindo ativamente o suporte para incluir modelos adicionais.

    Próximos Passos

    Usuários interessados podem começar a trabalhar com as implantações otimizadas do SageMaker JumpStart imediatamente. Basta selecionar um dos modelos de implantação otimizada disponíveis no hub de modelos do SageMaker Studio, explorar as diferentes opções de configuração e determinar qual delas melhor se adequa à aplicação em questão. A capacidade de ajustar a implantação ao caso de uso específico promete facilitar significativamente a colocação de modelos de linguagem em produção.

    Fonte

    Use-case based deployments on SageMaker JumpStart (https://aws.amazon.com/blogs/machine-learning/use-case-based-deployments-on-sagemaker-jumpstart/)