Author: Make.com Service User

  • Novos modelos de IA disponíveis no SageMaker JumpStart: DeepSeek OCR, MiniMax M2.1 e Qwen3-VL-8B-Instruct

    Novos modelos de IA para casos de uso empresariais

    A AWS anunciou recentemente a disponibilidade de três novos modelos de fundação no Amazon SageMaker JumpStart, expandindo significativamente o portfólio de soluções de inteligência artificial disponíveis aos clientes da plataforma. O anúncio traz o DeepSeek OCR, MiniMax M2.1 e Qwen3-VL-8B-Instruct, modelos especializados que abrangem capacidades em inteligência de documentos, codificação multilíngue, raciocínio multimodal avançado e compreensão visão-linguagem.

    Esses três modelos foram desenvolvidos para resolver diferentes desafios de inteligência artificial em ambientes corporativos, oferecendo capacidades especializadas que permitem aos clientes construir aplicações sofisticadas sobre a infraestrutura da AWS.

    Capacidades técnicas de cada modelo

    DeepSeek OCR: Processamento inteligente de documentos

    O modelo DeepSeek OCR explora a compressão de elementos visuais e textuais, direcionado especialmente para processamento de documentos. Sua funcionalidade permite extrair informações estruturadas de formulários, faturas, diagramas e documentos complexos com layouts de texto denso, facilitando a automação de processos documentais em escala.

    MiniMax M2.1: Desenvolvimento de software e automação

    O MiniMax M2.1 foi otimizado para codificação, uso de ferramentas, seguimento de instruções e planejamento em múltiplos passos. O modelo automatiza desenvolvimento de software multilíngue e executa fluxos de trabalho de escritório complexos e com múltiplas etapas, permitindo que desenvolvedores criem aplicações autônomas mais sofisticadas.

    Qwen3-VL-8B-Instruct: Compreensão avançada multimodal

    O Qwen3-VL-8B-Instruct oferece compreensão e geração superior de texto, percepção visual mais profunda e capacidade de raciocínio, comprimento de contexto estendido, e compreensão aprimorada de dinâmicas espaciais e de vídeo, além de capacidades mais fortes de interação com agentes.

    Como começar

    O SageMaker JumpStart permite que clientes da AWS implantem qualquer um desses modelos com apenas alguns cliques, endereçando casos de uso específicos de inteligência artificial. Para começar a usar esses modelos, basta acessar o catálogo de modelos do SageMaker JumpStart no console do SageMaker ou utilizar o SDK em Python do SageMaker para implantar os modelos na sua conta AWS.

    Para obter mais informações sobre como implantar e usar modelos de fundação no SageMaker JumpStart, consulte a documentação do Amazon SageMaker JumpStart.

    Fonte

    DeepSeek OCR, MiniMax M2.1, and Qwen3-VL-8B-Instruct models are now available on SageMaker JumpStart (https://aws.amazon.com/about-aws/whats-new/2026/01/new-models-on-sagemaker-jumpstart)

  • Escalando Inteligência Artificial na África do Sul com Inferência Global Cross-Region no Amazon Bedrock e Claude 4.5

    Resolvendo desafios de escalabilidade em aplicações de IA

    Construir aplicações de inteligência artificial com o Amazon Bedrock frequentemente apresenta desafios significativos relacionados ao throughput, impactando diretamente a capacidade de escala dos seus sistemas. A inferência global cross-region na região af-south-1 da AWS modifica esse cenário.

    Agora é possível invocar modelos a partir da região de Cape Town enquanto o Amazon Bedrock automaticamente roteia requisições para regiões que possuem capacidade disponível. O resultado é que suas aplicações mantêm tempos de resposta consistentes, seus usuários experimentam confiabilidade, e seus logs centralizados no Amazon CloudWatch e AWS CloudTrail permanecem organizados em um único local.

    Acesso aos modelos Claude 4.5 com maior throughput

    A inferência cross-region global com os modelos Anthropic Claude Sonnet 4.5, Haiku 4.5 e Opus 4.5 no Amazon Bedrock agora está disponível na região de Cape Town. Clientes sul-africanos podem utilizar perfis de inferência global para acessar esses modelos com throughput melhorado e maior resiliência.

    A inferência cross-region global roteia requisições para regiões comerciais suportadas em todo o mundo, otimizando recursos e possibilitando maior throughput — particularmente valioso durante períodos de pico. O recurso é compatível com cache de prompts do Amazon Bedrock, inferência em lote, Guardrails do Amazon Bedrock, Bases de Conhecimento do Amazon Bedrock e muito mais.

    Compreendendo a inferência cross-region

    A inferência cross-region é um recurso poderoso que organizações podem utilizar para distribuir processamento de inferência perfeitamente entre múltiplas regiões. Essa capacidade permite alcançar maior throughput ao construir em escala, permitindo que aplicações de IA generativa permaneçam responsivas e confiáveis mesmo sob carga pesada.

    Um perfil de inferência no Amazon Bedrock define um modelo de fundação (FM) e uma ou mais regiões para as quais pode rotear requisições de invocação. Os perfis de inferência funcionam em torno de dois conceitos principais:

    • Região de Origem: A região de onde a requisição de API é feita
    • Região de Destino: Uma região para a qual o Amazon Bedrock pode rotear a requisição para inferência

    A inferência cross-region opera através da rede segura da AWS com criptografia de ponta a ponta tanto para dados em trânsito quanto em repouso. Quando um cliente submete uma requisição de inferência a partir de uma região de origem, a inferência cross-region roteia inteligentemente a requisição para uma das regiões de destino configuradas no perfil de inferência através da rede gerenciada pelo Bedrock.

    Uma distinção importante: enquanto o processamento de inferência (o cálculo transitório) pode ocorrer em outra região, dados em repouso — incluindo logs, bases de conhecimento e configurações armazenadas — foram projetados para permanecer em sua região de origem. As requisições viajam pela Rede Global da AWS gerenciada pelo Bedrock. Os dados transmitidos durante a inferência cross-region são criptografados e permanecem dentro da rede segura da AWS.

    Dois modelos de inferência cross-region

    A AWS oferece dois tipos de perfis de inferência cross-region:

    • Inferência cross-region geográfica: O Amazon Bedrock seleciona automaticamente a região comercial ótima dentro de uma geografia definida (Estados Unidos, Europa, Austrália e Japão) para processar sua requisição de inferência. Recomendado para casos de uso com requisitos de residência de dados.
    • Inferência cross-region global: A inferência cross-region global aprimoura ainda mais esse recurso ao permitir o roteamento de requisições de inferência para regiões comerciais suportadas em todo o mundo, otimizando recursos disponíveis e possibilitando maior throughput de modelo. Recomendado para casos de uso sem requisitos rígidos de residência de dados.

    Monitoramento e registro centralizado

    Com a inferência cross-region global a partir de af-south-1, suas requisições podem ser processadas em qualquer lugar na infraestrutura global da AWS. No entanto, seus logs do Amazon CloudWatch e AWS CloudTrail são registrados em af-south-1, simplificando o monitoramento ao manter seus registros em um único local.

    Segurança de dados e conformidade regulatória

    Segurança e conformidade representam uma responsabilidade compartilhada entre a AWS e cada cliente. A inferência cross-region global foi projetada para manter a segurança de dados. Dados transmitidos durante a inferência cross-region são criptografados pelo Amazon Bedrock e permanecem dentro da rede segura da AWS.

    Informações sensíveis permanecem protegidas durante todo o processo de inferência, independentemente da região que processa a requisição. Os clientes são responsáveis por configurar suas aplicações e políticas de Gerenciamento de Identidade e Acesso da AWS (IAM) apropriadamente e por avaliar se a inferência cross-region global atende seus requisitos específicos de segurança e conformidade.

    Como a inferência cross-region global roteia requisições para regiões comerciais suportadas mundialmente, você deve avaliar se essa abordagem está alinhada com suas obrigações regulatórias, incluindo a Lei de Proteção de Informações Pessoais (POPIA) e outros requisitos específicos do setor. Recomenda-se consultar suas equipes de compliance e jurídica para determinar a abordagem apropriada para seus casos de uso específicos.

    Implementando a inferência cross-region global

    Para utilizar a inferência cross-region global com modelos Claude 4.5, desenvolvedores devem completar os seguintes passos principais:

    • Usar o ID do perfil de inferência global — Ao fazer chamadas de API para o Amazon Bedrock, especifique o ID do perfil de inferência do modelo Claude 4.5 global (por exemplo, global.anthropic.claude-opus-4-5-20251101-v1:0). Funciona com as APIs InvokeModel e Converse.
    • Configurar permissões IAM — Conceda permissões IAM para acessar o perfil de inferência e FMs nas regiões de destino potenciais. Na próxima seção, fornecemos mais detalhes. Você também pode consultar mais informações sobre pré-requisitos para perfis de inferência.

    Implementar a inferência cross-region global com modelos Claude 4.5 é simples, exigindo apenas algumas alterações no código de sua aplicação existente. O seguinte é um exemplo de como atualizar seu código em Python:

    import boto3
    import json
    
    # Connect to Bedrock from your deployed region
    bedrock = boto3.client('bedrock-runtime', region_name='af-south-1')
    
    # Use global cross-Region inference inference profile for Opus 4.5 model
    model_id = "global.anthropic.claude-opus-4-5-20251101-v1:0"
    
    # Make request - Global CRIS automatically routes to optimal AWS Region globally
    response = bedrock.converse(
        messages=[
            {
                "role": "user",
                "content": [{"text": "Explain cloud computing in 2 sentences."}]
            }
        ],
        modelId=model_id,
    )
    
    print("Response:", response['output']['message']['content'][0]['text'])
    print("Token usage:", response['usage'])
    print("Total tokens:", response['usage']['totalTokens'])

    Se estiver utilizando a API InvokeModel do Amazon Bedrock, você pode rapidamente alternar entre diferentes modelos mudando o ID do modelo, como mostrado em exemplos de código para invocar modelos.

    Requisitos de política IAM para inferência cross-region global

    A inferência cross-region global requer três permissões específicas porque o mecanismo de roteamento se estende por múltiplos escopos: seu perfil de inferência regional, a definição de FM em sua região de origem e a definição de FM em nível global. Sem essas três, o serviço não consegue resolver o modelo, validar seu acesso e rotear requisições entre regiões.

    O acesso a modelos Anthropic requer uma submissão de caso de uso antes de invocar um modelo. Essa submissão pode ser completada no nível da conta individual ou centralmente através da conta de gerenciamento da organização. Para submeter seu caso de uso, use a API PutUseCaseForModelAccess ou selecione um modelo Anthropic no catálogo de modelos no Console de Gerenciamento da AWS para Amazon Bedrock.

    Permissões do AWS Marketplace são necessárias para ativar modelos e podem ser limitadas a IDs de produto específicos quando suportado. A seguinte política IAM fornece controle granular:

    {
      "Version": "2012-10-17",
      "Statement": [{
        "Sid": "GrantGlobalCrisInferenceProfileRegionAccess",
        "Effect": "Allow",
        "Action": "bedrock:InvokeModel",
        "Resource": [
          "arn:aws:bedrock:af-south-1::inference-profile/global."
        ],
        "Condition": {
          "StringEquals": {
            "aws:RequestedRegion": "af-south-1"
          }
        }
      }, {
        "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess",
        "Effect": "Allow",
        "Action": "bedrock:InvokeModel",
        "Resource": [
          "arn:aws:bedrock:af-south-1::foundation-model/"
        ],
        "Condition": {
          "StringEquals": {
            "aws:RequestedRegion": "af-south-1",
            "bedrock:InferenceProfileArn": "arn:aws:bedrock:af-south-1::inference-profile/global."
          }
        }
      }, {
        "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess",
        "Effect": "Allow",
        "Action": "bedrock:InvokeModel",
        "Resource": [
          "arn:aws:bedrock:::foundation-model/ "
        ],
        "Condition": {
          "StringEquals": {
            "aws:RequestedRegion": "unspecified",
            "bedrock:InferenceProfileArn": "arn:aws:bedrock:af-south-1::inference-profile/global."
          }
        }
      } ]
    }

    A política compreende três partes. A primeira declaração concede acesso ao perfil de inferência regional em af-south-1, para que usuários possam invocar o perfil de inferência cross-region global especificado a partir da África do Sul. A segunda declaração fornece acesso ao recurso regional de FM, que o serviço precisa para compreender qual modelo está sendo solicitado no contexto regional. A terceira declaração concede acesso ao recurso de FM global, que permite que o roteamento cross-region funcione.

    Ao implementar essas políticas, verifique que os três ARNs estejam inclusos:

    • O ARN do perfil de inferência regional segue o padrão arn:aws:bedrock:af-south-1::inference-profile/global.. Isso concede acesso ao perfil de inferência global em sua região de origem.
    • O FM regional usa arn:aws:bedrock:af-south-1::foundation-model/. Isso concede acesso à definição de modelo em af-south-1.
    • O FM global requer arn:aws:bedrock:::foundation-model/. Isso concede acesso ao modelo entre regiões — observe que esse ARN intencionalmente omite os segmentos de região e conta para permitir roteamento cross-region.

    Nota importante sobre Políticas de Controle de Serviço (SCPs): Se sua organização usa SCPs específicas por região, verifique que "aws:RequestedRegion": "unspecified" não está incluída na lista de regiões negadas, porque requisições de inferência cross-region global utilizam esse valor de região. Organizações que utilizam SCPs restritivas que negam múltiplas regiões exceto aquelas especificamente aprovadas precisarão permitir explicitamente esse valor para habilitar a funcionalidade de inferência cross-region global.

    Se sua organização determinar que a inferência cross-region global não é apropriada para certos cargas de trabalho por requisitos de residência de dados ou conformidade, você pode desabilitá-la de duas maneiras:

    • Remover permissões IAM: Remova uma ou mais das três declarações de política IAM necessárias. Como a inferência cross-region global requer as três declarações para funcionar, remover uma delas causa requisições ao perfil de inferência global retornem um erro de acesso negado.
    • Implementar uma política de negação explícita: Crie uma política de negação que segmente especificamente perfis de inferência cross-region global usando a condição "aws:RequestedRegion": "unspecified". Essa abordagem documenta claramente sua intenção de segurança, e a negação explícita tem precedência mesmo se políticas de permissão forem acidentalmente adicionadas depois.

    Solicitando aumento de limites para inferência cross-region global

    Ao utilizar perfis de inferência cross-region global a partir de af-south-1, você pode solicitar aumentos de cota através do Console de Cotas de Serviço da AWS. Como esse é um limite global, requisições devem ser feitas em sua região de origem (af-south-1).

    Antes de solicitar um aumento, calcule sua cota necessária utilizando a taxa de redução para seu modelo. Para Sonnet 4.5 e Haiku 4.5, tokens de saída têm uma taxa de redução de cinco vezes — cada token de saída consome 5 tokens de sua cota — enquanto tokens de entrada mantêm uma proporção de 1:1. Seu consumo total de tokens por requisição é:

    Contagem de tokens de entrada + Tokens de entrada de escrita em cache + (Contagem de tokens de saída x Taxa de redução)

    Para solicitar um aumento de limite:

    • Faça login no Console de Cotas de Serviço da AWS em af-south-1
    • No painel de navegação, escolha Serviços da AWS
    • Localize e escolha Amazon Bedrock
    • Pesquise pelas cotas específicas de inferência cross-region global (por exemplo, Tokens de inferência de modelo cross-region global por minuto para Claude Sonnet 4.5 V1)
    • Selecione a cota e escolha Solicitar aumento no nível da conta
    • Digite seu valor de cota desejado e envie a solicitação

    Próximos passos

    A inferência cross-region global também traz a família de modelos Claude 4.5 para a região de Cape Town, oferecendo acesso às mesmas capacidades disponíveis em outras regiões. Você pode construir com Sonnet 4.5, Haiku 4.5 e Opus 4.5 a partir de sua região local enquanto a infraestrutura de roteamento gerencia a distribuição transparentemente.

    Para começar, atualize suas aplicações para utilizar o ID do perfil de inferência global, configure permissões IAM apropriadas, e monitore o desempenho conforme suas aplicações utilizam a infraestrutura global da AWS. Visite o console do Amazon Bedrock e explore como a inferência cross-region global pode aprimorar suas aplicações de IA.

    Para mais informações, consulte os seguintes recursos:

    Fonte

    Scale AI in South Africa using Amazon Bedrock global cross-Region inference with Anthropic Claude 4.5 models (https://aws.amazon.com/blogs/machine-learning/scale-ai-in-south-africa-using-amazon-bedrock-global-cross-region-inference-with-anthropic-claude-4-5-models/)

  • Amazon SageMaker Unified Studio agora suporta AWS PrivateLink

    Conectividade segura entre sua VPC e SageMaker Unified Studio

    A AWS anunciou uma nova capacidade que permite estabelecer conectividade entre sua Nuvem Privada Virtual (VPC) e o Amazon SageMaker Unified Studio sem que o tráfego de dados dos clientes seja roteado pela internet pública. Para organizações que precisam ir além do protocolo de transferência de dados padrão (HTTPS/TLS2), agora é possível configurar a VPC de forma que a transferência de dados permaneça completamente dentro da rede AWS.

    Como funciona o isolamento de rede

    Por meio do AWS PrivateLink, administradores de rede ganham a capacidade de integrar endpoints de serviço AWS à sua VPC, que são utilizados pelo Amazon SageMaker Unified Studio. Após o onboarding desses endpoints, as políticas IAM (Controle de Acesso por Identidade e Acesso) gerenciadas pelo Amazon SageMaker garantem que os dados dos clientes permaneçam confinados dentro da rede AWS, proporcionando segurança adicional e conformidade com requisitos de isolamento de rede.

    Disponibilidade global

    O acesso privado ao Amazon SageMaker usando AWS PrivateLink está disponível em todas as Regiões AWS onde o Amazon SageMaker Unified Studio é suportado, incluindo:

    • Ásia Pacífico (Tóquio)
    • Europa (Irlanda)
    • Leste dos EUA (N. Virgínia)
    • Leste dos EUA (Ohio)
    • Oeste dos EUA (Oregon)
    • Europa (Frankfurt)
    • América do Sul (São Paulo)
    • Ásia Pacífico (Seul)
    • Europa (Londres)
    • Ásia Pacífico (Singapura)
    • Ásia Pacífico (Sydney)
    • Canadá (Central)
    • Ásia Pacífico (Mumbai)
    • Europa (Paris)
    • Europa (Estocolmo)

    Próximos passos

    Para implementar essa configuração em seu ambiente, consulte a documentação de isolamento de rede do Amazon SageMaker Unified Studio, que fornece instruções detalhadas para configurar e gerenciar a conectividade privada.

    Fonte

    Amazon SageMaker Unified Studio now supports AWS PrivateLink (https://aws.amazon.com/about-aws/whats-new/2026/01/amazon-sagemaker-unified-studio-aws-privatelink/)

  • Estratégias de Expansão para o AWS Directory Service gerenciado de Active Directory

    Entendendo as capacidades do serviço gerenciado de Active Directory

    O AWS Directory Service para Microsoft Active Directory oferece às organizações a possibilidade de utilizar um Active Directory gerenciado como floresta primária para hospedar identidades de usuários. Essa abordagem permite que os times de infraestrutura continuem utilizando suas competências e aplicações existentes, enquanto a organização se beneficia dos atributos de segurança, confiabilidade e escalabilidade próprios dos serviços gerenciados pela AWS.

    O serviço também pode ser configurado como uma floresta de recursos. Nessa topologia, o Active Directory gerenciado funciona como intermediário para serviços AWS compatíveis, enquanto as identidades dos usuários permanecem sob controle exclusivo da organização em um Active Directory auto-gerenciado. Essa flexibilidade arquitetural permite que diferentes cenários de negócio sejam atendidos com segurança.

    O desafio do crescimento e escalabilidade

    À medida que as organizações expandem suas operações, também crescem as demandas sobre suas infraestruturas de diretório. Workflows mais complexos e um volume maior de usuários exigem que o serviço de Active Directory seja ajustado adequadamente para manter performance e confiabilidade.

    A AWS simplifica esse processo de escalabilidade oferecendo duas estratégias principais: scale-up (também chamado de upgrade) e scale-out (expansão do número de instâncias). Compreender quando e como aplicar cada uma dessas estratégias é fundamental para otimizar custos e desempenho.

    As duas estratégias de escalabilidade

    Scale-up: Upgradando a edição do serviço

    O scale-up consiste em atualizar a edição do AWS Managed Microsoft AD de Standard para Enterprise. A edição Enterprise fornece controladores de domínio com maior capacidade computacional e armazenamento ampliado para objetos do Active Directory. Durante um upgrade, o serviço mantém o mesmo número de instâncias de controlador de domínio que havia antes, mas com recursos maiores e quotas aumentadas.

    As instâncias são substituídas uma por vez para minimizar interrupções nos workflows de produção. Algumas funcionalidades do serviço são exclusivas da edição Enterprise e requerem esse upgrade obrigatoriamente.

    Considere realizar um scale-up quando enfrentar qualquer um destes cenários:

    • Quando há planos para replicar o diretório em múltiplas regiões AWS. Essa capacidade está disponível apenas na edição Enterprise.
    • Quando o número de objetos no Active Directory ultrapassará o limite recomendado de 30.000 para a edição Standard. A edição Enterprise suporta até 500.000 objetos.
    • Quando há necessidade de compartilhar o diretório com mais de 25 contas AWS diferentes. O limite padrão da Standard é 25 contas, enquanto a Enterprise permite 500 contas.

    Importante: A atualização de Standard para Enterprise é irreversível e implica um custo horário maior. Por isso, essa decisão deve ser bem planejada.

    Scale-out: Adicionando mais controladores de domínio

    O scale-out refere-se ao lançamento de controladores de domínio adicionais para o AWS Managed Microsoft AD. Diferentemente do scale-up, essa estratégia pode ser aplicada tanto em diretórios Standard quanto Enterprise. Além disso, cada região pode ser escalada independentemente, não sendo necessário ampliar uniformemente todas as regiões.

    Quando uma operação de scale-out ocorre, novas instâncias de controlador de domínio com os mesmos recursos computacionais e capacidade de armazenamento são iniciadas nas mesmas subnets existentes. A vantagem do scale-out é que essa operação pode ser revertida se necessário, ao contrário do scale-up.

    Por esse motivo, recomenda-se privilegiar o scale-out como primeira opção, reservando o scale-up apenas para situações em que uma funcionalidade exclusiva da Enterprise seja absolutamente necessária.

    Fluxo de decisão para escalabilidade de Active Directory — demonstrando como monitoramento contínuo via CloudWatch guia as decisões entre scale-out e scale-up. Fonte: Aws

    Tomando decisões informadas com CloudWatch

    Desde dezembro de 2021, o AWS Managed Microsoft AD integra métricas de diretório com Amazon CloudWatch, permitindo uma visão profunda do desempenho do serviço. As métricas do CloudWatch são conjuntos de dados ordenados no tempo que representam indicadores de desempenho e podem ser analisadas ao longo do período para identificar tendências.

    Para entender adequadamente o desempenho do diretório, é essencial definir métricas-chave relevantes para sua carga de trabalho no momento da criação do diretório. Os valores iniciais dessas métricas devem ser registrados para estabelecer uma baseline de desempenho. Posteriormente, esses dados devem ser revisitados periodicamente para comparação, permitindo identificar tendências de crescimento e utilização de recursos.

    Combinando essas informações — baseline inicial e comparações periódicas — é possível tomar decisões embasadas sobre quando escalar e qual estratégia aplicar. Esse processo cíclico de monitoramento, análise e planejamento é fundamental para manter a eficiência operacional.

    Métricas críticas de infraestrutura

    A perspectiva de infraestrutura revela três recursos mais comumente constrangidos:

    • Network Interface: Current Bandwidth — utilização da largura de banda disponível na rede
    • Processor: % Processor Time — percentual de tempo que o processador está ocupado
    • LogicalDisk: % Free Space — espaço livre disponível em volumes que armazenam dados do Active Directory

    Métricas críticas do Active Directory

    A perspectiva do serviço de diretório aponta para métricas como:

    • NTDS: LDAP Searches/sec — volume de buscas LDAP por segundo
    • NTDS: ATQ Estimated Queue Delay — atraso estimado na fila de processamento

    Matriz de decisão por restrição identificada

    Quando uma métrica revela constrangimento de recursos, essa informação orienta diretamente a estratégia de escalabilidade a ser adotada. Por exemplo:

    • Se % Processor Time estiver elevado → Scale-out
    • Se I/O Database Reads Average Latency estiver elevada → Scale-out
    • Se Committed Bytes in Use estiver elevado → Scale-out
    • Se % Free Space estiver baixo → Scale-up

    Como exemplo prático: um alarme do CloudWatch pode ser configurado para disparar quando Processor: % Processor Time ultrapasse 80% por mais de 5 minutos. Disparos frequentes desse alarme indicam que os controladores de domínio têm dificuldade em processar o volume regular de requisições de autenticação de usuários. Nessa situação, um scale-out com um controlador de domínio adicional pode garantir que o Acordo de Nível de Serviço (SLA) seja mantido.

    Por outro lado, se LogicalDisk: % Free Space cair abaixo de 10% com tendência de queda contínua, um scale-up para Enterprise Edition pode ser apropriado, já que oferece capacidade maior para objetos do diretório.

    Criando um dashboard no CloudWatch

    Para facilitar o acompanhamento e análise do desempenho do AWS Managed Microsoft AD, a AWS recomenda usar CloudWatch para construir um dashboard personalizado contendo as métricas mais relevantes.

    Pré-requisitos necessários

    Antes de começar, certifique-se de ter em lugar:

    Passo a passo para criar o dashboard

    Com os pré-requisitos em lugar, siga estes passos:

    1. Acesse o Console de Gerenciamento AWS para CloudWatch.
    2. No painel de navegação, selecione Dashboards e em seguida Criar dashboard.
    3. Na caixa de diálogo de criação, insira um nome para o dashboard e selecione Criar dashboard.
    4. Quando a janela Adicionar widget aparecer, configure como segue:
      • Em Tipos de fontes de dados, selecione CloudWatch
      • Em Tipo de dados, selecione Métricas
      • Em Tipo de widget, selecione Linha
      • Selecione Próximo
    5. Na janela Adicionar gráfico de métrica, escolha DirectoryService.
    6. Selecione Processor como categoria de métrica e % Processor Time como nome da métrica.
    7. Selecione cada instância da métrica (representada pelo IP do controlador de domínio) para um Directory ID.
    8. Selecione Criar widget.

    Nota: Se houver múltiplos diretórios na mesma região, todas as instâncias (IPs dos controladores de domínio) estarão disponíveis para seleção. Recomenda-se criar um dashboard separado para cada diretório, facilitando o monitoramento e gerenciamento de alarmes.

    Após criar o primeiro widget, selecione o símbolo de adição (+) no topo da janela para adicionar mais widgets. Repita o processo anterior para incluir as seguintes métricas adicionais:

    • Processor: % Processor Time
    • LogicalDisk: % Free Space
    • Memory: Committed Bytes in Use
    • Database: I/O Database Reads Average Latency
    • Network Interface: Current Bandwidth
    • DNS: Recursive Queries/Sec

    Depois de adicionar todas as métricas desejadas, selecione Salvar.

    Configurando alarmes no CloudWatch (opcional)

    Com o dashboard em lugar, considere configurar alarmes do CloudWatch para ser notificado quando uma métrica atingir ou ultrapassar um limite específico. Para mais detalhes, consulte a documentação sobre criar alarmes CloudWatch com limiares estáticos e adicionar alarmes a dashboards CloudWatch.

    A AWS fornece recomendações de limiares para guiar as decisões de escalabilidade. Estes são valores de referência baseados em casos de uso padrão e podem precisar de ajuste conforme as características específicas de cada organização:

    • Processor: % Processor Time — Configure alarmes em 80% para um período de 5 minutos. Valores persistentemente elevados sugerem problemas de dimensionamento que podem exigir scale-out.
    • LogicalDisk: % Free Space — Mantenha pelo menos 25% de espaço livre em volumes contendo dados do Active Directory. Configure alarmes para disparar quando o espaço livre cair abaixo de 20%, pois isso pode impactar severamente as operações do diretório.
    • Network Interface: Current Bandwidth — A utilização média de rede deve ficar abaixo de 50% da largura de banda disponível durante operações de pico. Configure alarmes em 70% para deixar espaço para picos de atividade. Valores consistentemente elevados sugerem restrições de rede que podem exigir scale-out.
    • Memory: Committed Bytes in Use — Monitore os níveis de memória comprometida para garantir recursos suficientes. Configure alarmes em 80% do limite de comprometimento. Valores persistentemente elevados podem levar a paginação excessiva, degradando significativamente o desempenho e causando atrasos em autenticações.
    • Database: I/O Database Reads Average Latency — Mantenha latências médias de leitura abaixo de 25 milissegundos. Configure alarmes em 50 milissegundos. Se latências estiverem consistentemente elevadas, considere um scale-out.
    • DNS: Recursive Queries/sec — Dada a integração profunda do Active Directory com DNS, use detecção de anomalias do CloudWatch em vez de limiares fixos para identificar comportamentos inesperados que possam indicar problemas de configuração ou preocupações de segurança.

    Considerações após escalabilidade

    Diferentes componentes da arquitetura podem manter referências aos endereços IP do AWS Managed Microsoft AD. Após uma operação de scale-out que implante controladores de domínio adicionais, essas referências devem ser atualizadas para manter a funcionalidade completa dos workloads.

    Referências que podem conter IPs do diretório incluem:

    Para manter a funcionalidade completa dos workloads após uma operação de escalabilidade, atualize:

    • Regras de firewall que permitam tráfego para e dos endereços IP dos controladores de domínio
    • Regras de endpoint do Route 53 Resolver e forwarders DNS condicionais que encaminhem queries para as instâncias do diretório
    • Dashboards CloudWatch que exibam dados de métricas do diretório para incluir dimensões dos novos endereços IP

    Limpeza de recursos

    Os componentes criados durante esse processo geram custos. Para evitar encargos adicionais quando não forem mais necessários:

    • Remova os endereços IP dos controladores de domínio adicionados das regras de firewall, regras de endpoint do resolver e forwarders DNS condicionais
    • Exclua os dashboards CloudWatch customizados que não planeja manter
    • Reverta diretórios escalados para o número anterior de instâncias de controladores de domínio

    Conclusão

    O monitoramento contínuo do desempenho usando CloudWatch é a base para decisões informadas sobre escalabilidade de diretórios. Combinando baselines de desempenho, análises periódicas e planejamento estruturado, as organizações podem escalar seus diretórios de forma segura e eficiente.

    O scale-out do diretório é apropriado quando workflows de Active Directory cresceram ao longo do tempo e a solução necessita de instâncias adicionais de controladores de domínio para manter o SLA do serviço. O scale-up para Enterprise Edition é indicado quando funcionalidades exclusivas dessa edição — como replicação multi-region ou armazenamento ampliado para objetos do diretório — tornam-se necessárias.

    Utilizando as capacidades flexíveis de escalabilidade e expansão independente por região, as organizações podem otimizar custos enquanto mantêm níveis apropriados de serviço. Para aprofundar conhecimento sobre otimização e monitoramento do AWS Managed Microsoft AD, consulte as melhores práticas do AWS Managed Microsoft AD e a documentação sobre como determinar quando adicionar controladores de domínio usando métricas do CloudWatch.

    Fonte

    Explore scaling options for AWS Directory Service for Microsoft Active Directory (https://aws.amazon.com/blogs/security/explore-scaling-options-for-aws-directory-service-for-microsoft-active-directory/)

  • Simplifique Operações de Modelo com Modelos Baseados em Amazon S3 no SageMaker AI Projects

    O desafio das operações de modelo em escala

    Gerenciar fluxos de trabalho de ModelOps (operações de modelos de machine learning) sempre foi uma tarefa complexa e demorada. Equipes que tentaram configurar templates de projeto para seus times de ciência de dados enfrentaram um cenário desafiador: a abordagem anterior exigia o uso do AWS Service Catalog, que demandava configuração de portfolios, produtos e permissões complexas—adicionando sobrecarga administrativa significativa antes do time conseguir construir seus primeiros pipelines de ML.

    Esse gargalo administrativo afastava cientistas de dados de suas atividades principais, enquanto que arquitetos e administradores gastavam horas configurando infraestrutura em vez de resolver problemas de negócio.

    O caminho simplificado: templates baseados em Amazon S3

    A AWS agora oferece uma alternativa mais direta: o Amazon SageMaker AI Projects suporta templates baseados em Amazon S3. Com essa nova capacidade, administradores podem armazenar templates AWS CloudFormation diretamente no Amazon Simple Storage Service (Amazon S3) e gerenciar todo o ciclo de vida usando recursos familiares do S3: versionamento, políticas de ciclo de vida e replicação entre regiões do S3.

    Isso significa fornecer ao time de ciência de dados templates de projeto automatizados, com controle de versão e seguros—com uma sobrecarga administrativa significativamente menor.

    O que é Amazon SageMaker AI Projects?

    O Amazon SageMaker AI Projects permite que times criem, compartilhem e gerenciem projetos de ModelOps completamente configurados. Dentro desse ambiente estruturado, você organiza código, dados e experimentos—facilitando colaboração e reprodutibilidade. Cada projeto pode incluir pipelines de integração e entrega contínua (CI/CD), registros de modelo, configurações de deployment e outros componentes de ModelOps, todos gerenciados dentro do SageMaker AI.

    Templates reutilizáveis padronizam práticas de ModelOps ao codificar as melhores práticas para processamento de dados, desenvolvimento de modelos, treinamento, deployment e monitoramento.

    Casos de uso principais

    Você pode orquestrar diversos cenários usando SageMaker AI Projects:

    • Automatizar fluxos de ML: Configure pipelines CI/CD que compilam, testam e deployam modelos automaticamente
    • Impor governança e conformidade: Garanta que seus projetos sigam padrões organizacionais para segurança, rede e marcação de recursos
    • Acelerar time-to-value: Forneça ambientes pré-configurados para que cientistas de dados se concentrem em problemas de ML, não em infraestrutura
    • Melhorar colaboração: Estabeleça estruturas de projeto consistentes para compartilhamento e reutilização de código

    Nova funcionalidade: templates de projeto em Amazon S3

    A atualização mais recente do SageMaker AI Projects permite que administradores armazenem e gerenciem templates de projeto de ML diretamente no Amazon S3. Esses templates baseados em S3 são uma alternativa menos complicada e mais flexível em relação ao Service Catalog anterior.

    Com esse aprimoramento, templates de AWS CloudFormation podem ser versionados, protegidos e compartilhados eficientemente entre times usando os controles de acesso ricos, gerenciamento de ciclo de vida e recursos de replicação fornecidos pelo S3.

    Disponibilidade regional e acesso entre contas

    Quando você armazena templates no Amazon S3, eles ficam disponíveis em todas as regiões AWS onde SageMaker AI Projects é suportado. Para compartilhar templates entre contas AWS, você pode usar políticas de bucket S3 e controles de acesso entre contas.

    Versionamento e auditoria completa

    A possibilidade de ativar versionamento no S3 fornece um histórico completo de alterações de template, facilitando auditorias e reversões, além de registrar a evolução do template do projeto de forma imutável.

    Migração do Service Catalog

    Se seus times atualmente usam templates baseados em Service Catalog, a abordagem baseada em S3 oferece um caminho de migração direto. Ao migrar, as considerações principais envolvem: provisionar novas funções SageMaker para substituir funções específicas do Service Catalog, atualizar referências de template, enviar templates para S3 com marcação adequada e configurar tags no nível do domínio apontando para o bucket de templates.

    Para organizações com repositórios de templates centralizados, você deve estabelecer políticas de bucket S3 entre contas para permitir descoberta de templates a partir de contas consumidoras, com cada domínio SageMaker de cada conta consumidora marcado para referenciar o bucket central.

    Tanto templates baseados em S3 quanto baseados em Service Catalog aparecem em abas separadas na interface de criação do SageMaker AI Projects, permitindo que organizações introduzam templates em S3 gradualmente sem interromper fluxos de trabalho existentes durante a migração.

    Requisitos técnicos para configuração

    SageMaker AI Projects com templates em S3 suporta templates CloudFormation personalizados que você cria para o seu caso de uso de ML organizacional. Os templates fornecidos pela AWS (como os templates de projeto ModelOps integrados) continuam disponíveis exclusivamente através do Service Catalog.

    Seus templates personalizados devem ser arquivos CloudFormation válidos em formato YAML.

    Para começar a usar templates baseados em S3 com SageMaker AI Projects, seu domínio SageMaker deve incluir a tag sagemaker:projectS3TemplatesLocation com o valor s3://<bucket-name>/<prefix>/.

    Cada arquivo de template enviado para S3 deve ser marcado com sagemaker:studio-visibility=true para aparecer no console SageMaker AI Studio Projects.

    Você precisará conceder acesso de leitura a funções de execução SageMaker na política de bucket S3 e ativar configuração CORS no bucket S3 para permitir ao SageMaker AI Projects acessar os templates S3.

    Como integração de templates em S3 funciona na prática

    A configuração opera em dois fluxos de trabalho separados: configuração única por administradores e lançamento de projeto por engenheiros de ML e cientistas de dados.

    Quando engenheiros de ML e cientistas de dados lançam um novo projeto de ModelOps no SageMaker AI, o SageMaker lança uma pilha (stack) AWS CloudFormation para provisionar os recursos definidos no template. Assim que o processo é concluído, você acessa todos os recursos especificados e os pipelines CI/CD configurados em seu projeto.

    Gerenciamento do ciclo de vida de projetos

    O gerenciamento do ciclo de vida de projetos lançados pode ser realizado através do console SageMaker Studio, onde usuários navegam para S3 Templates, selecionam um projeto e usam o menu Actions para atualizar ou deletar projetos.

    Atualizações de projeto podem ser usadas para modificar parâmetros de template existentes ou a própria URL do template, acionando atualizações de stack CloudFormation que são validadas antes da execução. A exclusão de projeto remove todos os recursos e configurações associadas do CloudFormation.

    Essas operações de ciclo de vida também podem ser executadas programaticamente usando as APIs do SageMaker.

    Caso de uso: template MLOps integrado com GitHub para times corporativos

    Muitas organizações usam GitHub como seu sistema principal de controle de versão e desejam usar GitHub Actions para CI/CD enquanto usam SageMaker para cargas de trabalho de ML. No entanto, configurar essa integração requer a configuração de múltiplos serviços AWS, estabelecer conexões seguras e implementar fluxos de aprovação apropriados—uma tarefa complexa que consome tempo se feita manualmente.

    Solução com template baseado em S3

    O template baseado em S3 resolve esse desafio ao provisionar um pipeline de ModelOps completo que inclui orquestração CI/CD, componentes de SageMaker Pipelines e automação acionada por eventos.

    Esse exemplo de projeto ModelOps com templates baseados em S3 habilita fluxos de trabalho de ModelOps totalmente automatizados e governados. Cada projeto de ModelOps inclui um repositório GitHub pré-configurado com fluxos de Actions e AWS CodeConnections seguras para integração perfeita.

    Após commits de código, uma pipeline SageMaker é acionada para orquestrar um processo padronizado envolvendo pré-processamento de dados, treinamento de modelo, avaliação e registro. Para deployment, o sistema suporta staging automatizado na aprovação do modelo, com verificações robustas de validação, uma porta de aprovação manual para promover modelos à produção, e uma arquitetura segura e orientada por eventos usando AWS Lambda e Amazon EventBridge.

    Governança e conformidade no fluxo

    Em todo o fluxo de trabalho, a governança é suportada pelo SageMaker Model Registry para rastreamento de versões de modelo e linhagem, etapas de aprovação bem-definidas, gerenciamento seguro de credenciais usando AWS Secrets Manager, e padrões consistentes de marcação e nomenclatura para todos os recursos.

    Quando cientistas de dados selecionam esse template no SageMaker Studio, eles provisionam um ambiente de ModelOps totalmente funcional através de um processo simplificado. Eles enviam seu código de ML para GitHub usando funcionalidade Git integrada no IDE do Studio, e o pipeline automaticamente lida com treinamento de modelo, avaliação e deployment progressivo através de staging até produção—tudo mantendo requisitos de segurança e conformidade corporativos.

    Começando com o template

    Instruções de configuração completas e código para esse template de ModelOps estão disponíveis em um repositório GitHub. Após seguir as instruções no repositório, você encontra o template mlops-github-actions na seção SageMaker AI Projects no console SageMaker AI Studio escolhendo Projects no painel de navegação e selecionando a aba Organization templates, depois clicando em Next.

    Para lançar o projeto ModelOps, você deve inserir detalhes específicos do projeto, incluindo o campo Role ARN, que deve conter o ARN da função AmazonSageMakerProjectsLaunchRole criada durante a configuração.

    Segurança com Launch Roles

    Como prática recomendada de segurança, use o Amazon Resource Name (ARN) da função AmazonSageMakerProjectsLaunchRole, não sua função de execução SageMaker. A AmazonSageMakerProjectsLaunchRole é uma função de provisionamento que atua como intermediária durante a criação de projeto ModelOps. Essa função contém todas as permissões necessárias para criar infraestrutura do seu projeto, incluindo funções AWS Identity and Access Management (IAM), buckets S3, AWS CodePipeline e outros recursos AWS.

    Ao usar essa launch role dedicada, engenheiros de ML e cientistas de dados podem criar projetos de ModelOps sem exigir permissões mais amplas em suas contas. Sua função de execução SageMaker pessoal permanece limitada em escopo—eles precisam apenas de permissão para assumir a launch role. Essa separação de responsabilidades é importante para manter segurança.

    Sem launch roles, cada profissional de ML precisaria de permissões IAM extensas para criar pipelines de código, projetos AWS CodeBuild, buckets S3 e outros recursos AWS diretamente. Com launch roles, precisam apenas de permissão para assumir uma função pré-configurada que lida com o provisionamento em seu nome, mantendo suas permissões pessoais mínimas e seguras.

    Após inserir seus detalhes desejados de configuração de projeto e clicar em Next, o template cria dois fluxos de trabalho automatizados de ModelOps—um para construção de modelo e outro para deployment de modelo—que trabalham juntos para fornecer CI/CD para seus modelos de ML. O exemplo completo de ModelOps pode ser encontrado no repositório mlops-github-actions.

    Limpeza de recursos

    Após deployment, você incorrerá em custos pelos recursos deployados. Se não tenciona continuar usando a configuração, delete os recursos do projeto ModelOps para evitar cobranças desnecessárias.

    Para destruir o projeto, abra o SageMaker Studio, clique em More no painel de navegação e selecione Projects. Escolha o projeto que deseja deletar, clique nas reticências acima do canto superior direito da lista de projetos e escolha Delete. Revise as informações na caixa de diálogo Delete project e selecione Yes, delete the project para confirmar. Após a exclusão, verifique que seu projeto não aparece mais na lista.

    Além de deletar um projeto, que remove e desprovisiona o SageMaker AI Project, você também precisa deletar manualmente os seguintes componentes se não forem mais necessários: repositórios Git, pipelines, grupos de modelo e endpoints.

    Impacto estratégico e conclusão

    O provisionamento de templates baseado em Amazon S3 para Amazon SageMaker AI Projects transforma como organizações padronizam operações de ML. Conforme demonstrado neste artigo, um único template AWS CloudFormation pode provisionar um fluxo de trabalho CI/CD completo integrando seu repositório Git (GitHub, Bitbucket ou GitLab), SageMaker Pipelines e SageMaker Model Registry—fornecendo times de ciência de dados com fluxos de trabalho automatizados enquanto mantém controles de governança e segurança corporativos.

    Para mais informações sobre SageMaker AI Projects e templates baseados em S3, consulte ModelOps Automation With SageMaker Projects.

    Ao usar templates baseados em S3 no SageMaker AI Projects, administradores podem definir e governar a infraestrutura de ML, enquanto engenheiros de ML e cientistas de dados ganham acesso a ambientes de ML pré-configurados através de provisionamento em autoatendimento. Explore o repositório de exemplos GitHub para templates populares de ModelOps e comece hoje seguindo as instruções fornecidas. Você também pode criar templates personalizados adaptados aos requisitos específicos da sua organização, políticas de segurança e frameworks de ML preferidos.

    Fonte

    Simplify ModelOps with Amazon SageMaker AI Projects using Amazon S3-based templates (https://aws.amazon.com/blogs/machine-learning/simplify-modelops-with-amazon-sagemaker-ai-projects-using-amazon-s3-based-templates/)

  • Avaliação de Modelos de IA Generativa com Amazon Nova LLM-as-a-Judge no Amazon SageMaker AI

    Além das Métricas Tradicionais

    Avaliar o desempenho de modelos de linguagem grandes vai além de simples métricas estatísticas como perplexidade ou scores BLEU (Bilingual Evaluation Understudy). Na maioria dos cenários reais de IA generativa, o que realmente importa é entender se um modelo produz resultados melhores que uma versão anterior ou uma linha de base. Isso é particularmente crítico em aplicações como sumarização, geração de conteúdo ou agentes inteligentes, onde julgamentos subjetivos e correção contextual são essenciais.

    As organizações que aprofundam a implantação desses modelos em produção enfrentam um desafio crescente: como avaliar sistematicamente a qualidade além dos métodos tradicionais? Abordagens convencionais como medidas de acurácia e avaliações baseadas em regras, embora úteis, não conseguem capturar completamente as necessidades de avaliação nuanceadas, especialmente quando as tarefas exigem julgamentos subjetivos, compreensão contextual ou alinhamento com requisitos comerciais específicos.

    A Abordagem LLM-as-a-Judge

    Para preencher essa lacuna, emergiu a abordagem conhecida como LLM-as-a-Judge (Modelo de Linguagem como Juiz), que aproveita as capacidades de raciocínio de modelos de linguagem para avaliar outros modelos de forma mais flexível e em larga escala.

    A Amazon Nova agora oferece o recurso LLM-as-a-Judge integrado ao Amazon SageMaker AI, um serviço gerenciado da Amazon Web Services (AWS) para construir, treinar e implantar modelos de aprendizado de máquina em escala. O Amazon Nova LLM-as-a-Judge foi projetado para entregar avaliações robustas e imparciais dos resultados de IA generativa em diferentes famílias de modelos.

    O recurso está disponível como workflows otimizados no SageMaker AI, permitindo começar a avaliar o desempenho de modelos contra seus casos de uso específicos em minutos. Ao contrário de muitos avaliadores que apresentam vieses arquiteturais, o Amazon Nova LLM-as-a-Judge foi rigorosamente validado para manter imparcialidade e alcançou desempenho líder em benchmarks importantes de juízes, refletindo de perto as preferências humanas.

    Treinamento e Validação do Nova LLM-as-a-Judge

    O Amazon Nova LLM-as-a-Judge foi construído através de um processo de treinamento em múltiplas etapas, combinando treinamento supervisionado e estágios de aprendizado por reforço que utilizaram datasets públicos anotados com preferências humanas.

    Para o componente proprietário, múltiplos anotadores avaliaram independentemente milhares de exemplos, comparando pares de respostas de diferentes modelos de linguagem para o mesmo prompt. Todas as anotações passaram por verificações rigorosas de qualidade, com julgamentos finais calibrados para refletir consenso amplo de humanos, em vez de um ponto de vista individual. Os dados de treinamento foram projetados para serem diversos e representativos, abrangendo categorias que incluem conhecimento do mundo real, criatividade, codificação, matemática, domínios especializados e toxicidade. Os dados incluem informações de mais de 90 idiomas, sendo principalmente compostos por inglês, russo, chinês, alemão, japonês e italiano.

    Um estudo interno de viés, avaliando mais de 10 mil julgamentos de preferência humana contra 75 modelos de terceiros, confirmou que o Amazon Nova LLM-as-a-Judge apresenta apenas 3% de viés agregado em relação às anotações humanas — um resultado significativo na redução de viés sistemático. Mesmo com esse desempenho, a AWS recomenda verificações ocasionais para validar comparações críticas.

    Gráfico de viés do Nova LLM-as-a-Judge em relação a preferências humanas
    Fonte: Aws

    O Amazon Nova LLM-as-a-Judge alcança desempenho avançado entre modelos de avaliação, demonstrando forte alinhamento com julgamentos humanos em uma gama de tarefas. Por exemplo, atinge 45% de acurácia no JudgeBench (comparado a 42% do Meta J1 8B) e 68% no PPE (versus 60% do Meta J1 8B). Esses resultados destacam a força do Amazon Nova LLM-as-a-Judge em avaliações relacionadas a chatbots.

    Fluxo de Trabalho de Avaliação

    O processo de avaliação começa preparando um dataset no qual cada exemplo inclui um prompt e duas respostas alternativas de modelos. O formato JSONL segue este padrão:

    { "prompt":"Explain photosynthesis.", "response_A":"Answer A...", "response_B":"Answer B..." }
    { "prompt":"Summarize the article.", "response_A":"Answer A...", "response_B":"Answer B..." }

    Após preparar esse dataset, utiliza-se uma receita de avaliação do SageMaker que configura a estratégia de avaliação, especifica qual modelo será usado como juiz e define as configurações de inferência, como temperatura e top_p. A avaliação é executada dentro de um job de treinamento do SageMaker usando contêineres pré-construídos do Amazon Nova. O SageMaker AI provisiona recursos de computação, orquestra a avaliação e escreve as métricas de saída e visualizações no Amazon Simple Storage Service (S3). Quando concluído, é possível baixar e analisar os resultados, que incluem distribuições de preferência, taxas de vitória e intervalos de confiança.

    Método de Avaliação Binária

    O Amazon Nova LLM-as-a-Judge utiliza um método de avaliação chamado binary overall preference judge (juiz de preferência geral binária). Esse método compara dois resultados lado a lado e escolhe o melhor ou declara um empate. Para cada exemplo, produz uma preferência clara. Quando essas avaliações são agregadas em muitas amostras, geram métricas como taxa de vitória e intervalos de confiança.

    Esta abordagem usa o raciocínio do próprio modelo para avaliar qualidades como relevância e clareza de forma direta e consistente. O modelo de juiz fornece preferências gerais de baixa latência em situações onde feedback granular não é necessário. A saída é uma de [[A>B]] ou [[B>A]].

    Interpretando as Métricas de Avaliação

    Ao usar o framework do Amazon Nova LLM-as-a-Judge para comparar resultados de dois modelos de linguagem, o SageMaker AI produz um conjunto abrangente de métricas quantitativas. Os resultados se dividem em três categorias principais: métricas de preferência central, métricas de confiança estatística e métricas de erro padrão.

    Métricas de preferência central: O a_scores conta quantos exemplos favoreceram o Modelo A, enquanto b_scores conta casos em que o Modelo B foi escolhido como melhor. O campo ties captura instâncias onde o modelo juiz classificou ambas as respostas igualmente ou não conseguiu identificar uma preferência clara. O inference_error conta casos em que o juiz não conseguiu gerar um julgamento válido.

    Métricas de confiança estatística: O winrate reporta a proporção de todas as comparações válidas em que o Modelo B foi preferido. Os campos lower_rate e upper_rate definem os limites inferior e superior do intervalo de confiança de 95% para essa taxa de vitória. Por exemplo, um winrate de 0,75 com intervalo de confiança entre 0,60 e 0,85 sugere que, mesmo contabilizando incerteza, o Modelo B é consistentemente favorecido.

    Métricas de erro padrão: Incluem a_scores_stderr, b_scores_stderr, ties_stderr, inference_error_stderr e score_stderr. Valores menores indicam resultados mais confiáveis; valores maiores podem apontar para a necessidade de dados de avaliação adicionais.

    Interpretar essas métricas requer atenção tanto às preferências observadas quanto aos intervalos de confiança: se o winrate está substancialmente acima de 0,5 e o intervalo de confiança não inclui 0,5, o Modelo B é estatisticamente favorecido. Inversamente, se o winrate está abaixo de 0,5 e o intervalo está completamente abaixo de 0,5, o Modelo A é preferido. Quando o intervalo de confiança sobrepõe 0,5, os resultados são inconclusivos.

    Implementação Prática

    Para demonstrar a implementação, a AWS oferece um notebook que guia pelo fluxo completo de trabalho. O código primeiro prepara um dataset amostrando questões do SQuAD (Stanford Question Answering Dataset) e gerando respostas candidatas. Os resultados são salvos em um arquivo JSONL contendo o prompt e ambas as respostas.

    Um estimador PyTorch lança um job de avaliação usando uma receita do Amazon Nova LLM-as-a-Judge, executando em instâncias GPU como ml.g5.12xlarge e produzindo métricas de avaliação, incluindo taxas de vitória, intervalos de confiança e contagens de preferência. Os resultados são salvos no S3 para análise.

    Uma função de visualização renderiza gráficos e tabelas, resumindo qual modelo foi preferido, quão forte foi a preferência e quão confiáveis são as estimativas. Através dessa abordagem de ponta a ponta, é possível avaliar melhorias, rastrear regressões e tomar decisões baseadas em dados sobre qual modelo generativo implantar — tudo sem anotação manual.

    Visualização dos resultados da avaliação com o Nova LLM-as-a-Judge
    Fonte: Aws

    Casos de Uso

    O framework do Amazon Nova LLM-as-a-Judge oferece uma forma confiável e repetível de comparar dois modelos de linguagem com seus próprios dados. Pode ser integrado em pipelines de seleção de modelo para decidir qual versão apresenta melhor desempenho, ou agendado como parte de uma avaliação contínua para detectar regressões ao longo do tempo. Para equipes construindo sistemas específicos de domínio ou baseados em agentes, essa abordagem fornece insights mais ricos do que métricas automatizadas isoladamente. Como todo o processo é executado em jobs de treinamento do SageMaker, escala rapidamente e produz relatórios visuais claros que podem ser compartilhados com stakeholders.

    Próximos Passos

    Para começar a jornada de avaliação de modelos de linguagem, recomenda-se explorar a documentação oficial do Amazon Nova e exemplos práticos. A comunidade AWS de IA/ML oferece recursos extensos, incluindo workshops e orientação técnica, para apoiar sua jornada de implementação.

    Fonte

    Evaluating generative AI models with Amazon Nova LLM-as-a-Judge on Amazon SageMaker AI (https://aws.amazon.com/blogs/machine-learning/evaluating-generative-ai-models-with-amazon-nova-llm-as-a-judge-on-amazon-sagemaker-ai/)

  • Amazon Bedrock expande suporte a ferramentas customizadas no lado do servidor com a Responses API

    Novas capacidades para ferramentas customizadas no servidor

    A Amazon Bedrock anunciou a disponibilidade de suporte a ferramentas customizadas no lado do servidor por meio da Responses API (Interface de Programação de Aplicações de Respostas). Essa expansão permite que aplicações de inteligência artificial realizem ações multi-etapas em tempo real, diretamente nos servidores, sem necessidade de intermediação de clientes.

    Como funcionam as ferramentas do lado do servidor

    O Amazon Bedrock já oferecia suporte a uso de ferramentas no lado do cliente através das APIs Converse, Chat Completions e Responses. Agora, com o lançamento do suporte a ferramentas no lado do servidor para a Responses API, a AWS chama as ferramentas diretamente, sem passagem através de um cliente.

    Isso habilita suas aplicações de IA a executarem ações em tempo real e sequenciadas, como busca na web, execução de código e atualização de bancos de dados, mantendo tudo dentro dos limites organizacionais, de governança, conformidade e segurança de suas contas AWS.

    Opções de implementação

    Você tem duas alternativas para configurar ferramentas no lado do servidor:

    • Funções Lambda customizadas: Submeta sua própria função AWS Lambda para executar ferramentas personalizadas de acordo com as necessidades específicas da sua organização.
    • Ferramentas fornecidas pela AWS: Utilize ferramentas pré-construídas pela Amazon, como serviços de anotações e gerenciamento de tarefas, sem necessidade de desenvolvimento adicional.

    Disponibilidade regional e compatibilidade de modelos

    O suporte a ferramentas no lado do servidor utilizando a Responses API está disponível a partir de hoje com os modelos GPT OSS 20B e 120B da OpenAI em diversos Regiões AWS:

    • US East (N. Virginia)
    • US East (Ohio)
    • US West (Oregon)
    • Asia Pacific (Tokyo)
    • Asia Pacific (Mumbai)
    • South America (São Paulo)
    • Europe (Ireland)
    • Europe (London)
    • Europe (Milan)

    A AWS informa que suporte para regiões adicionais e outros modelos será disponibilizado em breve.

    Próximos passos

    Para começar a utilizar essa funcionalidade, acesse a documentação de ferramentas do Bedrock, onde você encontrará guias detalhados, exemplos de implementação e melhores práticas para integrar ferramentas customizadas no lado do servidor em suas aplicações de IA.

    Fonte

    Amazon Bedrock now supports server-side custom tools using the Responses API (https://aws.amazon.com/about-aws/whats-new/2026/01/amazon-bedrock-server-side-custom-tools-responses-api)

  • Automação de Resposta à Segurança na AWS: Um Guia Prático para Arquitetos de Nuvem

    Por que automatizar respostas de segurança?

    A automação não é apenas para implementação de workloads. A AWS recomenda que as organizações também a utilizem para detectar e responder rapidamente a eventos de segurança dentro de seus ambientes. Quando você automatiza respostas, consegue não apenas aumentar a velocidade de detecção e resposta, mas também escalar suas operações de segurança proporcionalmente ao crescimento das suas cargas de trabalho.

    Por essa razão, a automação de segurança está incluída como princípio-chave em documentos importantes como o Well-Architected Framework, o AWS Cloud Adoption Framework, e o AWS Security Incident Response Guide. Quando você implementa automação de resposta a eventos de segurança, consegue responder a ameaças em minutos ou até segundos, algo que seria impossível para um engenheiro de plantão.

    Entendendo Automação de Resposta à Segurança

    Automação de resposta à segurança refere-se a uma ação planejada e programada que busca atingir um estado desejado para uma aplicação ou recurso, baseada em uma condição ou evento específico. Ao implementar essa automação, é recomendado adotar uma abordagem que se baseia em frameworks de segurança estabelecidos.

    A solução descrita neste guia utiliza o Framework de Cibersegurança (CSF) do NIST, que ajuda organizações a avaliar e aprimorar sua capacidade de prevenir, detectar e responder a eventos de segurança. Embora automação não seja um requisito do CSF, automatizar respostas a eventos que sabidamente não deveriam ocorrer oferece uma vantagem significativa: a automação consegue agir em segundos, enquanto processos manuais levariam muito mais tempo.

    O CSF define cinco etapas principais: identificar, proteger, detectar, responder e recuperar. Para fins deste guia, expandimos as etapas de “detectar” e “responder” para incluir atividades de automação e investigação.

    Imagem original — fonte: Aws

    As cinco etapas do CSF

    Identificar: Reconhecer e catalogar os recursos, aplicações e dados que existem em seu ambiente AWS.

    Proteger: Desenvolver e implementar controles e salvaguardas adequadas para garantir a entrega segura de serviços.

    Detectar: Implementar atividades e monitoramento para identificar quando um evento de segurança ocorre.

    Automatizar: Criar e programar ações que alcançarão um estado desejado para recursos ou aplicações, baseadas em condições ou eventos.

    Investigar: Analisar sistematicamente eventos de segurança para determinar sua causa raiz.

    Responder: Tomar ações automáticas ou manuais apropriadas em relação a eventos de segurança detectados.

    Recuperar: Manter planos de resiliência e restaurar capacidades que foram afetadas por eventos de segurança.

    Como Funciona Automação de Resposta na AWS

    A AWS oferece um conjunto de serviços que trabalham juntos para criar fluxos de automação de resposta. O AWS CloudTrail e o AWS Config registram continuamente detalhes sobre usuários, entidades de identidade, recursos com os quais interagiram e mudanças de configuração na sua conta. Quando combinados com o Amazon EventBridge, esses logs podem disparar automações baseadas em eventos, permitindo detecção automática de mudanças e reação a desvios do estado desejado.

    Um fluxo de remediação automática na AWS ocorre em três estágios:

    Monitorar: Ferramentas de monitoramento automatizado coletam informações sobre recursos e aplicações. Isso pode incluir dados do CloudTrail sobre atividades na conta, métricas de Amazon EC2, ou registros de fluxo sobre tráfego em interfaces de rede da Amazon Virtual Private Cloud (VPC).

    Detectar: Quando uma ferramenta de monitoramento detecta uma condição predefinida — como um limite excedido, atividade anômala ou desvio de configuração — um alerta é disparado. Isso pode vir de uma detecção do Amazon GuardDuty, uma violação de regra do AWS Config, ou um alto número de requisições bloqueadas em um grupo de segurança VPC.

    Responder: Quando uma condição é detectada, uma resposta automática é acionada para executar uma ação pré-definida. Exemplos incluem modificar um grupo de segurança VPC, fazer patch em uma instância EC2, rotacionar credenciais ou adicionar um endereço IP a uma lista de bloqueio.

    Definindo Suas Automações de Resposta

    Para começar, identifique requisitos de segurança em seu ambiente que você deseja implementar através de automação. Esses requisitos podem vir de melhores práticas gerais ou de frameworks de conformidade específicos para seu negócio.

    Uma abordagem prática é começar pelos run-books que você já usa em seu Lifecycle de Resposta a Incidentes. Run-books simples, como responder a uma credencial exposta (desabilitá-la e notificar a equipe), podem rapidamente ser transformados em automações. Você também pode considerar automações baseadas em recursos — por exemplo, quando uma nova VPC é criada, dispará automação para implantar a configuração padrão de coleta de flow logs.

    Seus objetivos devem ser quantitativos, não qualitativos. Por exemplo:

    • Acesso administrativo remoto a servidores deve ser limitado.
    • Volumes de armazenamento de servidores devem estar criptografados.
    • Logins no console AWS devem ser protegidos por autenticação multifator.

    Uma técnica útil é expandir esses objetivos em user stories, que descrevem de forma informal a funcionalidade desejada. Por exemplo: “Acesso administrativo remoto deve ser limitado apenas a redes internas confiáveis. Se portas de acesso remoto (SSH porta 22 e RDP porta 3389) forem detectadas e acessíveis a recursos externos, elas devem ser automaticamente fechadas e o proprietário será notificado.”

    User stories devem ser armazenadas em um local com controle de versão e devem referenciar o código de automação associado. Também é essencial considerar cuidadosamente o impacto de suas ações de remediação, pois ações como encerramento de instâncias, revogação de credenciais ou modificação de grupos de segurança podem afetar a disponibilidade de aplicações.

    Exemplo Prático: Automação para CloudTrail Desabilitado

    Para ilustrar esses conceitos, considere este cenário: detectar quando o CloudTrail é desabilitado (uma ação que atores maliciosos realizam para evitar auditoria) e reabilitá-lo automaticamente, notificando a equipe de segurança.

    A user story seria: “CloudTrail deve estar habilitado em todas as contas e regiões AWS. Se CloudTrail for desabilitado, será automaticamente reabilitado e a equipe de operações de segurança será notificada.”

    Implantando a Automação

    Para este exemplo, você usará Amazon GuardDuty e AWS Security Hub — ambos oferecem avaliação gratuita de 30 dias. Quando CloudTrail é desabilitado, GuardDuty gera uma detecção denominada Stealth:IAMUser/CloudTrailLoggingDisabled, que é coletada pelo Security Hub.

    A solução utiliza um template CloudFormation que contém uma regra do EventBridge, uma função AWS Lambda e as permissões necessárias. Quando o Security Hub detecta essa situação, publisha um evento no barramento padrão do EventBridge. A regra do EventBridge captura esse evento e invoca uma função Lambda que reabilita o CloudTrail e envia uma notificação via Amazon SNS (Serviço de Notificação Simples da Amazon).

    Testando a Automação

    Após implantar a solução, você pode testá-la criando um CloudTrail de teste, desabilitando-o propositalmente, e observando a automação reagir. Dentro de alguns segundos, o EventBridge detectará a ação, invocará a função Lambda, que reabilitará o CloudTrail automaticamente e enviará um email para o contato de segurança.

    Enquanto isso, GuardDuty realiza uma investigação mais profunda, coletando dados adicionais sobre o endereço IP que executou a ação (verificando, por exemplo, se vem de uma lista de ameaças ou de uma rede incomum). Essa informação é importada no Security Hub, onde pode ser visualizada e correlacionada com outros eventos para análise mais profunda.

    Componentes da Automação

    O exemplo incorpora dois fluxos de resposta: um em tempo quase real e outro investigativo.

    Imagem original — fonte: Aws

    Fluxo em Tempo Quase Real: O Amazon EventBridge monitora atividades indesejadas. Quando um trail do CloudTrail é parado, o CloudTrail publica um evento no barramento do EventBridge. Uma regra do EventBridge detecta esse evento e invoca uma função Lambda para reabilitá-lo e notificar o contato de segurança via SNS.

    Fluxo Investigativo: Os logs do CloudTrail são monitorados para atividades indesejadas. GuardDuty detecta quando um trail foi parado e recupera dados adicionais sobre o endereço IP que executou a ação. O Security Hub importa essa informação e a agrega com outras detecções para análise do analista. O Security Hub também publica seus achados no EventBridge, permitindo que outras ferramentas de orquestração de segurança, sistemas SIEM (Gerenciamento de Informações e Eventos de Segurança) e sistemas de ticketing recebam as informações.

    Fase de Resposta com EventBridge e Lambda

    O Amazon EventBridge é um serviço que fornece acesso em tempo real a mudanças em dados através de serviços AWS, aplicações próprias e aplicações de Software-as-a-Service (SaaS), sem necessidade de escrever código complexo. Neste exemplo, o EventBridge identifica um achado do Security Hub que requer ação e invoca uma função Lambda que realiza a remediação.

    Quando o Security Hub publica um achado no EventBridge, a informação vem em formato JSON com detalhes completos. A função Lambda extrai campos relevantes desse JSON — como o ARN (Amazon Resource Name) do trail do CloudTrail — e realiza duas ações: notifica o operador de segurança via SNS e reinicia o CloudTrail para reabilitar o logging.

    Um snippet do padrão de evento que o EventBridge procura é:

    EventPattern:
      source:
        - aws.securityhub
      detail-type:
        - "Security Hub Findings - Imported"
      detail:
        findings:
          Types:
            - "TTPs/Defense Evasion/Stealth:IAMUser-CloudTrailLoggingDisabled"

    A função Lambda então extrai informações do achado e executa as ações de remediação. O código Python faz parsing dos campos JSON, notifica a equipe e reinicia o trail do CloudTrail usando a SDK boto3.

    Ações Customizadas e Respostas Manuais

    Se você preferir não automatizar completamente certas respostas, o Security Hub oferece ações customizadas. Uma ação customizada é um mecanismo do Security Hub para enviar achados específicos ao EventBridge, que pode então ser relacionada a uma regra do EventBridge para executar uma ação específica.

    Você pode criar até 50 ações customizadas. Isso permite, por exemplo, que um analista de segurança visualize um achado no console do Security Hub e, com um clique, dispare uma função Lambda para investigação ou remediação manual.

    Solução Pronta para Uso: Automated Security Response (ASR)

    Para muitas organizações, construir automações de remediação do zero é uma tarefa complexa. Muitos times de operações não possuem recursos ou expertise em scripting e automação. Para isso, a AWS oferece a solução Automated Security Response (ASR) on AWS, que permite que clientes do Security Hub remediassem achados com um clique, utilizando um conjunto de ações predefinidas de resposta e remediação chamadas Playbooks.

    As remediações são implementadas como documentos de automação do AWS Systems Manager. A solução inclui remediações para problemas comuns como chaves de acesso não utilizadas, grupos de segurança abertos, políticas de senha fracas em contas, configurações de VPC Flow Logging e buckets S3 públicos.

    Os Playbooks incluem remediações para controles de segurança definidos em padrões como AWS Foundational Security Best Practices, Center for Internet Security (CIS) AWS Foundations Benchmark, Payment Card Industry (PCI) Data Security Standard, e NIST Special Publication 800-53.

    Imagem original — fonte: Aws

    A solução pode ser implementada e usada sem custos adicionais, porém há custos associados aos serviços AWS que ela utiliza. A biblioteca da solução inclui instruções sobre como criar novas automações em um Playbook existente.

    Próximos Passos

    Após compreender os conceitos fundamentais de automação de resposta à segurança, você está pronto para começar a construir suas próprias automações customizadas. É recomendável aprofundar-se no AWS Security Incident Response Guide, no NIST Cybersecurity Framework e no AWS Cloud Adoption Framework Security Perspective para entender melhor como estruturar sua estratégia de resposta.

    Adicionalmente, a AWS oferece uma biblioteca de soluções com casos de uso e remediações prontas para implantação. O código utilizado neste exemplo também está disponível no GitHub.

    Conclusão

    Automação de resposta à segurança é um elemento crítico para escalar operações de segurança efetivamente. Ao combinar serviços como CloudTrail, EventBridge, GuardDuty, Security Hub e Lambda, as organizações podem criar fluxos de resposta que reagêm em segundos a eventos indesejados — algo que seria impossível com processos manuais.

    O caminho para implementação pode começar com cenários simples baseados em run-books existentes, e evoluir para automações mais complexas conforme sua organização ganha experiência. O importante é começar, testar em ambientes não-produção, e expandir gradualmente o escopo de automações conforme for ganhar confiança.

    Fonte

    How to get started with security response automation on AWS (https://aws.amazon.com/blogs/security/how-get-started-security-response-automation-aws/)

  • Amazon Cognito apresenta Lambda triggers para federação de entrada

    Novo recurso de Lambda triggers para federação no Cognito

    A AWS anunciou a introdução de Lambda triggers para federação de entrada (inbound federation) no Amazon Cognito. Este novo recurso permite transformar e personalizar atributos de usuários federados durante o processo de autenticação. Isso significa que você agora consegue modificar respostas provenientes de provedores SAML e OIDC externos antes que essas informações sejam armazenadas em seu pool de usuários.

    A grande vantagem é oferecer controle programático completo sobre o fluxo de federação sem a necessidade de fazer alterações na configuração do provedor de identidade externo.

    O que o novo recurso resolve

    O Lambda trigger para federação de entrada aborda limitações significativas que existiam em fluxos de autenticação federada. Um dos principais problemas é o limite de tamanho de atributos que o Cognito suporta: até 2.048 caracteres por atributo. Quando provedores SAML ou OIDC externos enviam atributos de grupo grandes que ultrapassam esse limite, o fluxo de autenticação pode ser bloqueado.

    Com essa nova capacidade, você consegue adicionar, sobrescrever ou suprimir valores de atributos conforme necessário. Por exemplo, é possível modificar atributos de grupo que são particularmente grandes antes de criar novos usuários federados ou atualizar perfis de usuários federados existentes no Cognito. Isso oferece flexibilidade para trabalhar com dados de provedores externos sem que eles causem problemas de compatibilidade.

    Como implementar

    O novo Lambda trigger para federação de entrada está disponível através da interface de usuário hospedada (versão clássica) e do managed login em todas as regiões da AWS onde o Amazon Cognito opera.

    Para começar a usar o recurso, você pode configurar o trigger através de diferentes ferramentas:

    • AWS Management Console
    • AWS Command Line Interface (Interface de Linha de Comando — CLI)
    • AWS Software Development Kits (Kits de Desenvolvimento de Software — SDKs)
    • Cloud Development Kit (Kit de Desenvolvimento em Nuvem — CDK)
    • AWS CloudFormation

    A configuração é feita adicionando o novo parâmetro à configuração de Lambda do seu pool de usuários (User Pool LambdaConfig).

    Para obter exemplos práticos de implementação e as melhores práticas, consulte a documentação do Amazon Cognito onde você encontrará informações detalhadas sobre como usar esse novo recurso.

    Fonte

    Amazon Cognito introduces inbound federation Lambda triggers (https://aws.amazon.com/about-aws/whats-new/2026/01/amazon-cognito-inbound-federation-lambda-trigger/)

  • Escalando operações de revisão de conteúdo com fluxos de trabalho multi-agente

    O desafio crescente da gestão de conteúdo empresarial

    Organizações enfrentam um desafio crescente ao gerenciar volumes cada vez maiores de conteúdo corporativo. Catálogos de produtos, artigos de suporte, bases de conhecimento e documentação técnica precisam permanecer precisos, relevantes e alinhados com as realidades do negócio em constante evolução. Quando esses processos dependem exclusivamente de revisão manual, o resultado é operações lentas, custosas e incapazes de acompanhar as mudanças nos requisitos empresariais.

    Pesquisa da McKinsey indica que organizações que adotam IA generativa em atividades de conhecimento, incluindo revisão de conteúdo e garantia de qualidade, conseguem aumentar a produtividade em até 30-50%, reduzindo significativamente o tempo gasto em tarefas repetitivas de verificação. Estudos do Deloitte complementam essa perspectiva, mostrando que operações de conteúdo impulsionadas por IA não apenas ganham eficiência, mas também ajudam as organizações a manter maior precisão de conteúdo e reduzir riscos operacionais.

    Uma abordagem baseada em agentes de IA

    A AWS, através do Amazon Bedrock AgentCore — uma infraestrutura propositalmente construída para implantar e operar agentes de IA em escala — combinou essa capacidade com Strands Agents, um SDK de código aberto para construir agentes de IA. Essa combinação permite que organizações automatizem fluxos de trabalho abrangentes de revisão de conteúdo.

    O enfoque baseado em agentes capacita empresas a avaliar conteúdo quanto à precisão, verificar informações contra fontes autorizadas e gerar recomendações acionáveis de melhoria. Quando agentes especializados trabalham em conjunto de forma autônoma, experts humanos conseguem concentrar-se em tarefas estratégicas de revisão enquanto o sistema de agentes de IA lida com a validação em larga escala.

    Esse padrão é aplicável a qualquer tipo de conteúdo empresarial: desde documentação de produtos e bases de conhecimento até materiais de marketing e especificações técnicas. Para ilustrar os conceitos na prática, a solução apresenta um exemplo concreto de revisão de conteúdo de blog focado em precisão técnica. Os padrões e técnicas podem ser adaptados para diferentes necessidades de revisão ajustando as configurações dos agentes, ferramentas e fontes de verificação.

    Estrutura da solução multi-agente

    A solução implementa um padrão de fluxo de trabalho multi-agente, onde três agentes de IA especializados, construídos com Strands Agents e implantados no Amazon Bedrock AgentCore, trabalham em um pipeline coordenado. Cada agente recebe a saída do agente anterior, processa-a de acordo com sua função especializada e passa informações enriquecidas para o próximo agente da sequência. Isso cria um processo de refinamento progressivo:

    • Agente scanner de conteúdo: analisa conteúdo bruto e extrai informações relevantes
    • Agente de verificação de conteúdo: valida os elementos extraídos contra fontes autorizadas
    • Agente de recomendações: transforma achados da verificação em atualizações de conteúdo acionáveis

    A manutenção de conteúdo técnico requer múltiplos agentes especializados porque varrer manualmente, verificar e atualizar documentação é ineficiente e propenso a erros. Cada agente tem um papel focado: o scanner identifica elementos sensíveis ao tempo, o verificador valida a precisão atual e o agente de recomendações elabora atualizações precisas. O design modular do sistema, com interfaces e responsabilidades claras, facilita a adição de novos agentes ou expansão de capacidades conforme a complexidade do conteúdo cresce.

    Exemplo prático: revisão de conteúdo técnico

    Para demonstrar como esse sistema de revisão baseado em agentes funciona na prática, a solução apresenta uma implementação que revisa posts técnicos de blog quanto à precisão. Empresas de tecnologia frequentemente publicam posts detalhando novos recursos, atualizações e boas práticas. Contudo, o ritmo rápido de inovação significa que alguns recursos podem ficar obsoletos ou ser atualizados, tornando desafiador manter informações atualizadas em centenas ou milhares de posts publicados.

    Embora o padrão seja demonstrado com conteúdo de blog, a arquitetura é agnóstica quanto ao tipo de conteúdo e oferece suporte a qualquer tipo configurando os agentes com prompts, ferramentas e fontes de dados apropriadas.

    Arquitetura do fluxo de trabalho

    O fluxo de trabalho inicia quando uma URL de blog é fornecida ao agente scanner de blog, que recupera o conteúdo usando a ferramenta http_request do Strands e extrai reivindicações técnicas-chave que requerem verificação. O agente de verificação então consulta o servidor MCP de documentação da AWS para buscar a documentação mais recente e validar as reivindicações técnicas contra a documentação atual. Finalmente, o agente de recomendações sintetiza os achados e gera um relatório de revisão abrangente com recomendações acionáveis para o time de blog. O código é de código aberto e hospedado no GitHub.

    Agente scanner de conteúdo: extração inteligente para detecção de obsolescência

    O agente scanner de conteúdo funciona como o ponto de entrada do fluxo de trabalho multi-agente. É responsável por identificar informações técnicas potencialmente obsoletas, especificamente direcionando elementos que tendem a se tornar desatualizados com o tempo. O agente analisa o conteúdo e produz uma saída estruturada que categoriza cada elemento técnico por tipo, localização no blog e sensibilidade temporal. Esse formato estruturado permite que o agente de verificação receba dados bem organizados que consiga processar eficientemente.

    Agente de verificação de conteúdo: validação baseada em evidências

    O agente de verificação de conteúdo recebe os elementos técnicos estruturados do agente scanner e realiza validação contra fontes autorizadas. O agente de verificação usa o servidor MCP de documentação da AWS para acessar documentação técnica atual. Para cada elemento técnico recebido do agente scanner, ele segue um processo de verificação sistemático orientado por prompts específicos que focam em critérios objetivos e mensuráveis.

    O agente verifica:

    • Informações específicas de versão: o número de versão, endpoint de API ou parâmetro de configuração mencionado ainda existe?
    • Disponibilidade de recursos: o recurso de serviço descrito ainda está disponível nas regiões ou camadas especificadas?
    • Precisão de sintaxe: exemplos de código, comandos CLI ou snippets de configuração correspondem à documentação atual?
    • Validade de pré-requisitos: os requisitos, dependências ou passos de configuração listados ainda são precisos?
    • Preços e limites: custos mencionados, cotas ou limites de serviço se alinham com informações atuais publicadas?

    Para cada elemento técnico recebido do agente scanner, o agente realiza os seguintes passos: gera consultas de busca direcionadas com base no tipo de elemento e conteúdo, consulta o servidor de documentação para informações atuais, compara a reivindicação original contra fontes autorizadas usando os critérios acima, classifica o resultado da verificação como CURRENT, PARTIALLY_OBSOLETE ou FULLY_OBSOLETE, e documenta discrepâncias específicas com evidências.

    Um exemplo de verificação em ação: quando o agente scanner identifica a reivindicação “Amazon Bedrock está disponível apenas nas regiões us-east-1 e us-west-2”, o agente de verificação gera a consulta de busca “Amazon Bedrock regiões disponíveis” e recupera a disponibilidade regional atual da documentação da AWS. Ao descobrir que Bedrock agora está disponível em 8+ regiões incluindo eu-west-1 e ap-southeast-1, ele classifica isso como PARTIALLY_OBSOLETE com a evidência: “A reivindicação original lista 2 regiões, mas a documentação atual mostra disponibilidade em us-east-1, us-west-2, eu-west-1, ap-southeast-1 e 4 regiões adicionais a partir da data de verificação.”

    A saída do agente de verificação mantém a estrutura de elemento do agente scanner enquanto adiciona esses detalhes de verificação e classificações baseadas em evidências.

    Agente de recomendações: geração de atualizações acionáveis

    O agente de recomendações representa o estágio final no fluxo de trabalho multi-agente, transformando achados de verificação em atualizações de conteúdo prontas para implementação. Esse agente recebe os resultados de verificação e gera recomendações específicas que mantêm o estilo do conteúdo original enquanto corrigem imprecisões técnicas.

    Adaptando o padrão para diferentes casos de uso

    O padrão de fluxo de trabalho multi-agente pode ser rapidamente adaptado para qualquer cenário de revisão de conteúdo sem mudanças arquiteturais. Seja revisando documentação de produtos, materiais de marketing ou documentos de conformidade regulatória, o mesmo fluxo sequencial de três agentes se aplica. Os prompts do sistema precisam ser modificados para cada agente focando em elementos específicos do domínio e potencialmente alternando ferramentas ou fontes de conhecimento.

    Por exemplo, enquanto o exemplo de revisão de blog usa uma ferramenta http_request para buscar o conteúdo do blog e o servidor MCP de documentação da AWS para verificação, um sistema de revisão de catálogo de produtos poderia usar uma ferramenta de conector de banco de dados para recuperar informações de produtos e consultar APIs de gerenciamento de inventário para verificação. Similarmente, um sistema de revisão de conformidade ajustaria o prompt do agente scanner para identificar declarações regulatórias em vez de reivindicações técnicas, conectaria o agente de verificação a bancos de dados legais em vez de documentação técnica, e configuraria o agente de recomendações para gerar relatórios prontos para auditoria em vez de atualizações de conteúdo.

    Os passos sequenciais centrais — extração, verificação e recomendação — permanecem constantes em todos esses cenários, fornecendo um padrão comprovado que escala desde blogs técnicos para qualquer tipo de conteúdo empresarial.

    Personalizando a solução

    As seguintes mudanças são recomendadas para personalizar a solução para outros tipos de conteúdo. Substitua os valores das variáveis CONTENT_SCANNER_PROMPT, CONTENT_VERIFICATION_PROMPT e RECOMMENDATION_PROMPT com suas instruções de prompt personalizadas:

    CONTENT_SCANNER_PROMPT = """<replace with your prompt instructions>"""
    CONTENT_VERIFICATION_PROMPT = """<replace with your prompt instructions>"""
    RECOMMENDATION_PROMPT = """<replace with your prompt instructions>"""

    Atualize o servidor MCP de documentação oficial para o agente de verificação de conteúdo:

    product_db_mcp_client = MCPClient(
        lambda: stdio_client(StdioServerParameters(
            command="uvx",
            args=["<replace with your official documentation MCP server>"]
        ))
    )

    Adicione ferramentas apropriadas de acesso a conteúdo como database_query_tool e cms_api_tool para o agente scanner de conteúdo quando a ferramenta http_request for insuficiente:

    scanner_agent = Agent(
        model="us.anthropic.claude-3-7-sonnet-20250219-v1:0",
        system_prompt=CONTENT_SCANNER_PROMPT,
        tools=[database_query_tool, cms_api_tool]  # Replace http_request
    )

    Essas modificações direcionadas permitem que o mesmo padrão arquitetural lide com qualquer tipo de conteúdo mantendo a estrutura de fluxo de trabalho de três agentes comprovada, garantindo confiabilidade e consistência em diferentes domínios de conteúdo sem exigir mudanças na lógica de orquestração central.

    Próximos passos e conclusão

    A solução apresentada demonstra como arquitetar um sistema de revisão de conteúdo impulsionado por agentes de IA usando o Amazon Bedrock AgentCore e Strands Agents. O padrão de fluxo de trabalho multi-agente, onde agentes especializados trabalham em conjunto para varrer conteúdo, verificar precisão técnica contra fontes autorizadas e gerar recomendações acionáveis, oferece uma abordagem escalável e modular.

    É recomendado testar o código de exemplo disponível no GitHub em sua própria conta para ganhar experiência prática com a solução. Como próximos passos, considere começar com um projeto piloto em um subconjunto do seu conteúdo, personalizar os prompts dos agentes para seu domínio específico e integrar fontes de verificação apropriadas para seu caso de uso. A natureza modular dessa arquitetura permite refinar iterativamente as capacidades de cada agente conforme você expande o sistema para lidar com as necessidades completas de revisão de conteúdo da sua organização.

    Fonte

    Scaling content review operations with multi-agent workflow (https://aws.amazon.com/blogs/machine-learning/scaling-content-review-operations-with-multi-agent-workflow/)