Author: Make.com Service User

  • Amazon SageMaker Studio agora suporta Kiro e Cursor como IDEs remotas

    Integração entre IDEs locais e infraestrutura em nuvem

    A AWS anunciou uma novidade importante para quem trabalha com ciência de dados e desenvolvimento de modelos de inteligência artificial: agora é possível conectar remotamente as IDEs (Ambientes de Desenvolvimento Integrado) Kiro e Cursor diretamente ao Amazon SageMaker Studio.

    Essa capacidade oferece aos cientistas de dados, engenheiros de aprendizado de máquina e desenvolvedores a oportunidade de aproveitar as características locais de suas ferramentas favoritas — como desenvolvimento orientado por especificações, programação conversacional e geração automática de recursos — enquanto acessam simultaneamente toda a potência computacional escalável do Amazon SageMaker Studio na nuvem.

    Como funciona a integração

    A conexão entre Kiro, Cursor e SageMaker Studio é realizada através da extensão AWS Toolkit, eliminando a necessidade de alternar constantemente entre o editor local e a infraestrutura em nuvem. Dessa forma, é possível manter fluxos de trabalho de desenvolvimento orientados por agentes dentro de um único ambiente, integrando todos os seus serviços de análise e inteligência artificial e aprendizado de máquina da AWS.

    Ambientes de desenvolvimento disponíveis

    O Amazon SageMaker Studio oferecia anteriormente um conjunto abrangente de ambientes de desenvolvimento interativos totalmente gerenciados, incluindo JupyterLab, Code Editor baseado em Code-OSS (Software Livre) e VS Code como IDE remota. A partir de agora, esses ambientes se expandem para incluir as configurações customizadas de Kiro e Cursor — com todas as especificações, arquivos de direcionamento e hooks — enquanto você acessa seus recursos computacionais e dados no SageMaker.

    Autenticação e segurança

    A autenticação pode ser realizada de duas formas: através da extensão AWS Toolkit diretamente no Kiro ou Cursor, ou pela interface web do SageMaker Studio. Após a autenticação, você consegue conectar a qualquer um de seus ambientes de desenvolvimento do SageMaker Studio em poucos cliques.

    Um aspecto importante é que você mantém os mesmos limites de segurança que os ambientes baseados em web do SageMaker Studio oferecem. Isso significa que o desenvolvimento de modelos de inteligência artificial e análise de dados em sua IDE local de preferência — seja Kiro ou Cursor — acontece dentro do mesmo contexto de segurança e conformidade da plataforma.

    Próximos passos

    Para obter mais detalhes sobre como configurar essa integração e explorar todas as funcionalidades disponíveis, consulte a documentação do SageMaker.

    Fonte

    Amazon SageMaker Studio launches support for Kiro and Cursor IDEs as remote IDEs (https://aws.amazon.com/about-aws/whats-new/2026/03/amazon-sagemaker-studio-kiro-cursor/)

  • Construindo IA Responsiva à Idade e Sensível ao Contexto com Amazon Bedrock Guardrails

    O Desafio da Segurança em Aplicações de IA Generativa

    Quando aplicações de IA generativa atendem a grupos diversificados de usuários, surge um desafio crítico que afeta tanto a segurança quanto a confiabilidade: garantir que cada resposta gerada seja apropriada, precisa e segura para o usuário específico. O conteúdo adequado para adultos pode ser inadequado ou confuso para crianças, enquanto explicações voltadas para iniciantes podem ser insuficientes para especialistas do domínio.

    À medida que a adoção de IA se expande por diferentes setores, a necessidade de adaptar respostas conforme a idade, papel profissional e nível de conhecimento do usuário se tornou essencial em ambientes de produção. Muitas organizações tentam resolver esse problema por meio de engenharia de prompts ou lógica no nível da aplicação, mas essas abordagens enfrentam limitações significativas.

    Por Que Controles de Segurança Baseados em Prompts Não São Suficientes

    Os controles de segurança implementados apenas no prompt podem ser contornados por técnicas de manipulação que induzem os modelos a ignorar as instruções de segurança. Conforme os requisitos de personalização crescem, o código da aplicação fica cada vez mais complexo e frágil. A governança se torna inconsistente quando múltiplas aplicações de IA estão em uso.

    Além disso, os riscos de conteúdo inseguro, informações alucinadas e respostas inadequadas se amplificam significativamente quando sistemas de IA interagem com usuários vulneráveis ou operam em domínios sensíveis como educação e saúde. A falta de políticas de segurança centralizadas e obrigatórias cria ineficiências operacionais e riscos de conformidade regulatória.

    A Solução: Guardrails no Coração da Arquitetura

    Para enfrentar esses desafios, a AWS desenvolveu uma abordagem baseada em guardrails que coloca a segurança no centro da arquitetura. Essa solução é totalmente serverless e utiliza Amazon Bedrock Guardrails junto com outros serviços AWS para alinhar-se com as necessidades modernas de segurança e conformidade em IA.

    A arquitetura oferece três componentes principais: seleção dinâmica de guardrails baseada no contexto do usuário, aplicação centralizada de políticas por meio dos guardrails, e APIs seguras com autenticação.

    Capacidades Principais da Solução

    O design serverless permite às organizações entregar respostas de IA personalizadas e seguras sem código complexo, de forma eficiente, segura e em escala. A solução é capaz de:

    • Adaptar respostas de IA de forma inteligente com base na idade, papel profissional e setor do usuário
    • Aplicar políticas de segurança no momento da inferência, prevenindo contornos por manipulação de prompts
    • Oferecer cinco guardrails especializados para diferentes segmentos de usuários: crianças, adolescentes, profissionais de saúde, pacientes e adultos em geral
    • Melhorar a eficiência operacional com governança centralizada e intervenção manual mínima
    • Escalar de acordo com o crescimento de usuários e requisitos de segurança em evolução

    Essa abordagem ajuda organizações a implantar sistemas de IA responsáveis, a se alinhar com requisitos de conformidade para populações vulneráveis, e a manter respostas apropriadas e confiáveis em toda a diversidade de grupos de usuários, sem comprometer desempenho ou governança.

    Visão Geral da Arquitetura

    Componentes Principais

    A solução utiliza Amazon Bedrock, Amazon Bedrock Guardrails, AWS Lambda e Amazon API Gateway como serviços essenciais para geração inteligente de respostas, aplicação centralizada de políticas e acesso seguro. Componentes de suporte como Amazon Cognito, Amazon DynamoDB, AWS WAF e Amazon CloudWatch possibilitam autenticação de usuários, gerenciamento de perfis, segurança e registros abrangentes.

    O Diferencial: Seleção Dinâmica de Guardrails

    O que torna esta abordagem única é a seleção dinâmica de guardrails. O Amazon Bedrock e os Bedrock Guardrails se adaptam automaticamente com base no contexto autenticado do usuário (idade, papel profissional, setor) para aplicar políticas de segurança apropriadas no momento da inferência. Essa abordagem baseada em guardrails funciona junto com medidas de segurança baseadas em prompts para oferecer proteção em camadas.

    A solução oferece cinco guardrails especializados:

    • Proteção Infantil: Compatível com a Lei de Proteção da Privacidade Online das Crianças (Children’s Online Privacy Protection Act – COPPA)
    • Educacional para Adolescentes: Conteúdo apropriado à idade
    • Profissional de Saúde: Conteúdo clínico habilitado
    • Paciente de Saúde: Aconselhamento médico bloqueado
    • Geral para Adultos: Proteção padrão

    Esses guardrails oferecem uma camada de aplicação de políticas autoritária que governa o que o modelo de IA pode dizer, operando independentemente da lógica da aplicação. A solução utiliza escalabilidade serverless, aplica políticas de segurança e adapta respostas com base no contexto do usuário, tornando-a bem adequada para implantações de IA corporativa que atendem populações diversas.

    Estratégia de Segurança em IA Multicontexto

    Como a Solução Funciona

    O fluxo da solução envolve várias etapas bem definidas:

    1. Requisição e Interface do Usuário

    • O usuário acessa a interface web de demonstração local (executada em localhost:8080 para fins de demonstração)
    • Insere uma consulta na interface
    • Seleciona seu perfil (Criança, Adolescente, Adulto, Profissional de Saúde)
    • A interface web prepara uma requisição autenticada com o contexto do usuário

    2. Autenticação do Usuário

    • O Amazon Cognito autentica usuários através de um pool de usuários e gera tokens Tokens de Web JSON (JWT – JSON Web Token)
    • Esses tokens contêm a ID do usuário e a declaração de autenticação
    • Os tokens seguros são passados com as requisições de API

    3. Camada de Segurança AWS WAF

    • O AWS WAF aplica limite de taxa de 2.000 requisições por minuto por IP (ajustável conforme necessário)
    • Bloqueia ameaças web comuns e requisições maliciosas segundo padrões de Projeto de Segurança de Aplicação Web Aberta (OWASP – Open Web Application Security Project)
    • Valida o formato da requisição e bloqueia tráfego suspeito

    4. Processamento pelo API Gateway

    • O Amazon API Gateway valida tokens JWT do Cognito
    • Encaminha requisições autenticadas para funções AWS Lambda
    • Gerencia requisições de Compartilhamento de Recursos entre Origens (CORS – Cross-Origin Resource Sharing)

    5. Execução da Função Lambda

    • O Lambda sanitiza e valida as entradas do usuário
    • Consulta o DynamoDB para recuperar perfis de usuário (idade, papel profissional, setor)
    • Analisa dados demográficos para determinar o guardrail apropriado
    • Prepara entradas de log de auditoria

    6. Seleção Dinâmica de Guardrail

    O Lambda avalia a idade, papel profissional e setor do usuário e seleciona automaticamente entre cinco guardrails especializados:

    • Idade menor que 13 anos → Guardrail de Proteção Infantil (compatível com COPPA)
    • Idade entre 13 e 17 anos → Guardrail Educacional para Adolescentes (conteúdo apropriado à idade)
    • Profissional de Saúde → Guardrail de Profissional de Saúde (conteúdo clínico habilitado)
    • Paciente de Saúde → Guardrail de Paciente (aconselhamento médico bloqueado)
    • Padrão/Adulto → Guardrail Geral para Adultos (proteção padrão)

    Cada requisição deve passar por um guardrail — não há possibilidade de contorno.

    7. Processamento Bedrock com Proteção por Guardrail

    • O Lambda invoca um modelo de fundação no Amazon Bedrock
    • O guardrail selecionado filtra tanto a entrada quanto a saída
    • Políticas customizadas, restrições de tópicos e detecção de Informações de Identificação Pessoal (PII – Personally Identifiable Information) são aplicadas
    • A IA gera respostas filtradas para segurança e apropriadas ao contexto

    8. Processamento de Resposta e Registro de Auditoria

    • Respostas seguras são entregues com metadados dos guardrails
    • Conteúdo inadequado dispara mensagens de segurança específicas do contexto
    • Interações são registradas no Amazon CloudWatch para conformidade
    • Interações dos guardrails são armazenadas em tabelas de auditoria no DynamoDB

    9. Entrega de Resposta ao Usuário

    • O Lambda retorna respostas processadas através do Amazon API Gateway
    • O sistema entrega respostas diretamente aos usuários
    • A interface web de demonstração exibe respostas protegidas e apropriadas ao contexto

    Exemplos de Adaptação de Respostas

    Exemplo 1: Pergunta sobre DNA

    Para a pergunta “O que é DNA?”, o sistema gera respostas diferentes conforme o contexto do usuário:

    Estudante Adolescente (13 anos): “O DNA é como um livro de receitas que diz ao seu corpo como crescer e como você vai parecer! É feito de quatro letras especiais (A, T, G, C) que criam instruções para tudo sobre você.”

    Profissional de Saúde (35 anos): “O DNA consiste de sequências de nucleotídeos que codificam informações genéticas através de complementaridade de pares de bases. A estrutura da dupla hélice contém regiões de codificação (éxons) e sequências regulatórias que controlam a expressão gênica e síntese de proteínas.”

    Adulto Geral (28 anos): “O DNA é uma molécula que contém instruções genéticas para o desenvolvimento e funcionamento de organismos vivos. Tem estrutura de dupla hélice e determina características hereditárias.”

    Exemplo 2: Pergunta sobre Equações Quadráticas

    A mesma pergunta “Como resolver equações quadráticas?” recebe respostas apropriadas à idade:

    Estudante Adolescente (13 anos): Explicação simples, passo a passo, com exemplos básicos e linguagem amigável adequada ao nível de ensino médio.

    Professor de Matemática (39 anos): Abordagem pedagógica abrangente, incluindo múltiplos métodos de solução, estratégias de ensino e conceitos matemáticos avançados.

    Implementação da Solução

    Pré-requisitos

    Antes de implantar a solução, certifique-se de que você tem:

    • Uma conta AWS
    • Permissões AWS apropriadas para Lambda, Amazon Bedrock, Cognito, AWS WAF, DynamoDB, API Gateway e CloudWatch
    • Terraform instalado e configurado

    Passos de Implementação

    1. Clonar o Repositório

    git clone https://github.com/aws-samples/sample-age-responsive-context-aware-ai-bedrock-guardrails.git

    2. Implantar Infraestrutura usando Terraform

    cd sample-age-responsive-context-aware-ai-bedrock-guardrails
    ./deploy.sh

    Para uma visão abrangente de cada configuração de guardrail, incluindo filtros de conteúdo, restrições de tópicos, tratamento de PII e filtros customizados, consulte os Detalhes de Configuração de Guardrail no repositório de código.

    Testando a Solução

    A solução inclui uma demonstração baseada em web para teste imediato. Para implantações corporativas em produção, você pode hospedar a interface usando AWS Amplify, Amazon S3 com Amazon CloudFront, ou serviços de container como Amazon Elastic Container Service (ECS) e Amazon Elastic Kubernetes Service (EKS).

    Demo Interativa Web:

    cd web-demo
    ./start_demo.sh

    Abra o navegador e acesse http://localhost:8080. Você pode:

    • Selecionar diferentes perfis de usuário (Criança, Adolescente, Adulto, Papéis de Saúde)
    • Enviar consultas e observar respostas sensíveis ao contexto
    • Visualizar aplicação de guardrails em tempo real
    • Monitorar adaptação de respostas conforme o contexto do usuário

    Teste de API:

    Para teste programático, gere um token JWT:

    cd utils
    python3 generate_jwt.py student-123

    Teste o endpoint de API:

    curl -X POST "$(cd ../terraform && terraform output -raw api_url)" \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer " \
      -d '{"query": "What is DNA?"}'

    Para cenários detalhados de teste do Amazon Bedrock Guardrails, exemplos de API e procedimentos de validação, consulte o arquivo TESTING_GUIDE.md no repositório clonado.

    Estimativa de Custos

    O custo de executar esta solução depende dos padrões e escala de uso. Para um cenário de uso moderado (1.000 requisições de API por dia), a estimativa mensal fica entre $73 e $320, dependendo do volume de uso e seleção de modelo.

    Os custos reais variam com base no volume de requisições, seleção de modelo, transferência de dados e preços regionais. Use o Calculador de Preços AWS para estimativas customizadas.

    Considerações para Otimização de Custos

    • Tagging de Custos: Implemente tags de alocação de custos AWS nos recursos para rastrear despesas por departamento, projeto ou centro de custos
    • Implantações Multi-Conta: Para implantações corporativas em múltiplas contas AWS, considere usar AWS Organizations com cobrança consolidada e AWS Cost Explorer para visibilidade centralizada
    • Capacidade Reservada: Para cargas de trabalho previsíveis, considere Amazon Bedrock Provisioned Throughput para reduzir custos de inferência
    • Otimização do DynamoDB: Use preço sob demanda para cargas variáveis ou capacidade provisionada com autoscaling para padrões previsíveis
    • Otimização do Lambda: Dimensione apropriadamente a alocação de memória e use AWS Lambda Power Tuning para melhorar a relação custo-desempenho
    • Retenção de Logs CloudWatch: Configure períodos de retenção apropriados para equilibrar necessidades de conformidade com custos de armazenamento

    Limpeza de Recursos

    Para evitar encargos contínuos, remova os recursos AWS criados quando não forem mais necessários:

    cd sample-age-responsive-context-aware-ai-bedrock-guardrails
    ./cleanup.sh

    Principais Benefícios e Resultados

    Esta solução demonstra uma abordagem baseada em guardrails para construir aplicações de IA sensíveis ao contexto. Os principais benefícios incluem:

    • Segurança Sensível ao Contexto: Diferentes grupos de usuários são protegidos por guardrails específicos sem necessidade de implantar modelos ou aplicações separados
    • Governança Centralizada: Os guardrails aplicam políticas de segurança, restrições de tópicos e controles de alucinação no nível da infraestrutura, em vez de depender apenas de lógica de prompts
    • Filtragem de Conteúdo Gerenciada: Os guardrails oferecem filtros de conteúdo integrados para discurso de ódio, insultos, conteúdo sexual, violência, má conduta e ataques de injeção de prompts, sem necessidade de implementação customizada
    • Personalização Inteligente: Adapta complexidade e apropriação de conteúdo conforme contexto do usuário, entregando explicações apropriadas à idade para crianças e detalhes clínicos para profissionais de saúde
    • Risco Reduzido de Contorno: Políticas são aplicadas no momento da inferência e não podem ser sobrescritas por entrada do usuário
    • Flexibilidade Operacional: Novos segmentos de usuários ou atualizações de política podem ser introduzidos atualizando guardrails em vez de modificar código da aplicação
    • Prontidão Corporativa: Os guardrails oferecem controle de versão, registros de auditoria e suporte à conformidade com clara separação de responsabilidades para manutenção de longo prazo

    Conclusão

    A AWS apresentou uma abordagem totalmente serverless baseada em guardrails para entregar respostas de IA sensíveis à idade e contextualizadas. A solução demonstra como serviços AWS trabalham em conjunto para selecionar dinamicamente guardrails especializados com base no contexto do usuário, aplicar políticas de segurança e entregar respostas personalizadas. A arquitetura foi implantada usando Terraform, tornando-a repetível e pronta para produção.

    Por meio de seleção dinâmica de guardrails e aplicação centralizada de políticas, essa solução personaliza respostas de IA para cada segmento de usuário — desde proteção compatível com COPPA para crianças até conteúdo clínico para profissionais de saúde — mantendo segurança corporativa e escalabilidade. Organizações que atendem populações diversas podem se beneficiar de risco reduzido de contorno, governança centralizada e flexibilidade operacional ao atualizar políticas sem modificar código da aplicação.

    Para começar, clone o repositório e siga as instruções de implantação. Teste a solução usando a demonstração web interativa para ver como respostas se adaptam conforme o contexto do usuário. Para aprender mais sobre Amazon Bedrock Guardrails, visite a documentação do Amazon Bedrock Guardrails.

    Fonte

    Building age-responsive, context-aware AI with Amazon Bedrock Guardrails (https://aws.amazon.com/blogs/machine-learning/building-age-responsive-context-aware-ai-with-amazon-bedrock-guardrails/)

  • Aceleração do Ajuste Fino de Modelos de Linguagem com Dados Não Estruturados usando SageMaker Unified Studio e S3

    Contexto da Integração

    No ano anterior, a AWS anunciou uma integração significativa entre o Amazon SageMaker Unified Studio e os buckets de propósito geral do Amazon S3. Essa conexão simplifica bastante a forma como equipes trabalham com dados não estruturados armazenados no Amazon Simple Storage Service (Amazon S3) para casos de uso em aprendizado de máquina (ML) e análise de dados.

    Este artigo demonstra como conectar buckets S3 ao Amazon SageMaker Catalog para realizar o ajuste fino do modelo Llama 3.2 11B Vision Instruct voltado para tarefas de resposta a perguntas visuais (VQA, sigla em inglês para Visual Question Answering). O fluxo prático mostra como fornecer ao modelo de linguagem uma imagem e uma pergunta para obter uma resposta — por exemplo, identificar a data de uma transação em um recibo itemizado.

    Preparação Inicial e Desempenho Base

    A AWS disponibiliza o modelo Llama 3.2 11B Vision Instruct através do Amazon SageMaker JumpStart. Fora da caixa, esse modelo base alcança uma pontuação ANLS (Similaridade de Levenshtein Normalizada Média — Average Normalized Levenshtein Similarity) de 85,3% no conjunto de dados DocVQA. O ANLS é uma métrica empregada para avaliar o desempenho de modelos em tarefas de resposta a perguntas visuais, medindo a similitude entre a resposta predita e a resposta esperada.

    Embora 85,3% demonstre um desempenho inicial sólido, esse nível pode não ser suficiente para tarefas que exigem maior precisão. Para elevar o desempenho através do ajuste fino, utiliza-se o conjunto de dados DocVQA do Hugging Face, que contém 39.500 linhas de dados de treinamento, cada uma com uma imagem, uma pergunta e a resposta correspondente esperada.

    Estratégia de Experimentação

    O processo envolve a criação de três versões de modelos ajustados utilizando diferentes tamanhos de conjuntos de dados: 1.000, 5.000 e 10.000 imagens. Cada variação é avaliada usando o Amazon SageMaker com suporte a MLflow gerenciado e sem servidor para rastreamento de experimentos e medição de melhorias de acurácia. Todo o fluxo de ingestão de dados, desenvolvimento de modelo e avaliação de métricas é orquestrado pelo Amazon SageMaker Unified Studio.

    Arquitetura da Solução

    A arquitetura construída realiza a ingestão de dados, pré-processamento, treinamento do modelo e avaliação utilizando o Amazon SageMaker Unified Studio. O processo segue estas etapas principais:

    • Criar e configurar um papel de acesso IAM que concede permissões de leitura a um bucket S3 preexistente contendo o conjunto de dados DocVQA bruto e não processado
    • O projeto produtor de dados usa o papel de acesso para descobrir e adicionar o conjunto de dados ao catálogo do projeto
    • O projeto produtor enriquece o conjunto de dados com metadados opcionais e o publica no SageMaker Catalog
    • O projeto consumidor de dados se inscreve no conjunto de dados publicado, disponibilizando-o para a equipe de desenvolvimento de modelos de aprendizado de máquina
    • O projeto consumidor pré-processa os dados e os transforma em três conjuntos de treinamento de tamanhos variados (1k, 5k e 10k imagens)
    • Cada conjunto é utilizado para ajustar o modelo base de linguagem, com o MLflow rastreando experimentos e resultados de avaliação em relação à métrica ANLS

    Pré-requisitos Necessários

    Para preparar uma organização visando usar essa nova integração entre o Amazon SageMaker Unified Studio e buckets S3 de propósito geral, é necessário completar alguns passos em um domínio baseado em Identity Center:

    • Criar uma conta AWS
    • Criar um domínio Amazon SageMaker Unified Studio através de configuração rápida
    • Criar dois projetos dentro do domínio: um para a função de produtor de dados e outro para consumidor de dados
    • Garantir que o projeto consumidor tenha acesso a uma aplicação MLflow gerenciada sem servidor em execução
    • Pré-popular um bucket Amazon S3 com o conjunto de dados bruto
    • Solicitar aumento de cota de serviço para utilizar instâncias de computação p4de.24xlarge em trabalhos de treinamento

    Fluxo de Implementação

    Descoberta e Catalogação de Dados

    Um projeto no Amazon SageMaker Unified Studio funciona como um limite dentro de um domínio onde equipes podem colaborar em casos de uso comerciais. Para trazer dados do S3 para um projeto, é necessário primeiro adicionar acesso aos dados e depois adicioná-los ao projeto. Nesta demonstração, utiliza-se um papel de acesso para facilitar esse processo.

    Após criar o papel de acesso conforme documentado, no projeto produtor de dados, navega-se até Dados → Adicionar dados → Adicionar localização S3, fornecendo o nome do bucket e o prefixo contendo os dados brutos. O papel de acesso necessário aparece em um menu suspenso para seleção.

    Dependendo das necessidades organizacionais, é possível enriquecer ainda mais esse ativo de dados através de junções com outras fontes, aplicação de transformações específicas do negócio, implementação de verificações de qualidade ou criação de características derivadas. Para este exemplo, trabalha-se com o conjunto de dados em sua forma atual para manter o foco na integração.

    Em seguida, publica-se o bucket no SageMaker Catalog, adicionando opcionalmente metadados de negócio como um arquivo README e termos de glossário. Após a publicação através do menu Ações, o ativo de dados fica pronto para ser consumido por outros projetos.

    Consumo e Desenvolvimento do Modelo

    Mudando para a perspectiva do projeto consumidor, é possível agora se inscrever no ativo de dados recém-publicado. Com a inscrição concluída, inicia-se o trabalho com os dados dentro de um ambiente JupyterLab gerenciado no Amazon SageMaker Unified Studio.

    No projeto de desenvolvimento de ML, navegando até Computação → Espaços → Criar espaço e selecionando JupyterLab como tipo de aplicação, inicia-se um novo ambiente de desenvolvimento interativo. Considera-se importante definir o Tempo de Inatividade para 6 horas, permitindo que notebooks rodem completamente sem erros, e o Armazenamento do Espaço para 100 GB para acomodar a ingestão completa do conjunto de dados durante o ajuste fino.

    Acesso aos Dados e Preparação

    Com o espaço em execução, carrega-se o notebook de demonstração. A integração utiliza Amazon S3 Access Grants para facilitar o acesso seguro aos dados sem gerenciamento complexo de permissões.

    Os dados podem ser acessados através da Interface de Linha de Comando AWS (AWS CLI), SDKs AWS e API REST do S3. Adicionalmente, é possível usar plugins Python e Java para chamar o serviço. O notebook utiliza a abordagem AWS CLI para obter credenciais temporárias de acesso ao plano de controle S3 e sincronizar os dados localmente.

    Com o conjunto de dados agora acessível localmente, é necessário transformá-lo no formato requerido para ajuste fino. Criam-se três conjuntos de dados com tamanhos variados, cada um contendo um diretório de treinamento e validação com subdiretórios de imagens e arquivo metadata.jsonl com exemplos de treinamento:

    {"file_name": "images/img_0.jpg", "prompt": "what is the date mentioned in this letter?", "completion": "1/8/93"}
    {"file_name": "images/img_1.jpg", "prompt": "what is the contact person name mentioned in letter?", "completion": "P. Carter"}

    Ajuste Fino e Rastreamento de Experimentos

    Com os artefatos enviados para o S3, procede-se ao ajuste fino do modelo através do SageMaker JumpStart para acessar o modelo Llama 3.2 11B Vision Instruct pré-treinado. Criam-se três variantes ajustadas distintas para avaliação.

    Um função de treinamento parametrizada facilita essa execução, manipulando múltiplos aspectos importantes: seleção do modelo com a versão mais recente disponível no JumpStart, obtenção automática de hiperparâmetros padrão usando a API retrieve_default() no SDK SageMaker, configuração de tamanho de lote (batch size) ajustado para 1 por dispositivo dadas as limitações de memória do modelo grande, e utilização de instâncias ml.p4de.24xlarge para trabalhos de treinamento.

    A integração automática com MLflow registra hiperparâmetros, nomes de trabalhos e metadados de treinamento para rastreamento de experimentos, enquanto cada modelo treinado é automaticamente implantado em um ponto de acesso (endpoint) SageMaker para inferência. O processo de treinamento leva algumas horas usando esse tipo de instância.

    Avaliação de Resultados

    Os modelos ajustados são avaliados utilizando a métrica ANLS, que avalia saídas baseadas em texto medindo a similitude entre respostas preditas e esperadas, mesmo com pequenos erros ou variações. Essa métrica é particularmente útil em tarefas de resposta a perguntas visuais por conseguir lidar com pequenas variações nas respostas.

    O MLflow rastreia experimentos e resultados para comparação direta. O fluxo de avaliação inclui funções para codificação de imagens para inferência do modelo, formatação de carga útil, cálculo de ANLS e registro de resultados. Uma função pipeline de treinamento orquestra o fluxo completo com execuções MLflow aninhadas para melhor organização de experimentos.

    Resultados Alcançados

    Após executar o pipeline completo três vezes para os três tamanhos de conjunto de dados diferentes, revisa-se os resultados da métrica ANLS no MLflow. Os dados evidenciam uma relação positiva entre o tamanho do conjunto de dados de treinamento e a pontuação ANLS:

    • Modelo docvqa-1000: 0.886
    • Modelo docvqa-5000: 0.894
    • Modelo docvqa-10000: 0.902
    • Modelo Base: 0.853

    O modelo docvqa-10000 alcançou a maior pontuação ANLS de 0.902, representando um aumento de 4,9 pontos percentuais em relação ao modelo base (0.902 − 0.853 = 0.049). Essa melhoria valida a abordagem para tarefas de resposta a perguntas visuais.

    Benefícios Principais

    A integração entre o Amazon SageMaker Unified Studio e buckets S3 de propósito geral oferece diversos benefícios:

    • Descoberta e catalogação simplificadas de dados através de uma interface unificada
    • Acesso seguro aos dados através de S3 Access Grants sem necessidade de gerenciamento complexo de permissões
    • Colaboração tranquila entre produtores e consumidores de dados em diferentes projetos
    • Rastreamento de experimentos de ponta a ponta com integração gerenciada do MLflow

    As organizações podem agora aproveitar seus ativos de dados S3 existentes de forma mais eficaz para cargas de trabalho de aprendizado de máquina, mantendo controles de governança e segurança.

    Próximos Passos

    Para aprofundar a exploração dessa abordagem, considere investigar técnicas adicionais de pré-processamento de dados, experimentar diferentes arquiteturas de modelos disponíveis através do SageMaker JumpStart, ou aumentar a escala para conjuntos de dados maiores conforme os requisitos de seu caso de uso exigirem.

    O código de solução completo está disponível em um repositório GitHub para referência e implementação prática.

    Fonte

    Accelerating LLM fine-tuning with unstructured data using SageMaker Unified Studio and S3 (https://aws.amazon.com/blogs/machine-learning/accelerating-llm-fine-tuning-with-unstructured-data-using-sagemaker-unified-studio-and-s3/)

  • Amazon Polly com Streaming Bidirecional: Síntese de Voz em Tempo Real para IA Conversacional

    Construindo Experiências Conversacionais Naturais

    Para criar interações de conversação genuinamente naturais, é fundamental contar com síntese de voz que acompanhe o ritmo das trocas em tempo real. A AWS anunciou uma solução inovadora: a nova API de Streaming Bidirecional para o Amazon Polly, que possibilita síntese de texto para voz (TTS) simplificada e em tempo real, permitindo enviar texto e receber áudio simultaneamente.

    Este novo recurso foi desenvolvido especificamente para aplicações de IA conversacional que geram texto ou áudio incrementalmente — como as respostas de modelos de linguagem de grande escala (LLMs) — onde o usuário precisa começar a sintetizar áudio antes mesmo que o texto completo esteja disponível.

    O Amazon Polly já oferecia suporte para transmissão de áudio sintetizado de volta ao usuário. A inovação agora vai além, focando em comunicação bidirecional sobre HTTP/2, que traz ganhos significativos em velocidade, redução de latência e simplificação da implementação.

    O Desafio da Síntese de Voz Tradicional

    As APIs convencionais de conversão de texto para voz seguem um padrão simples: requisição e resposta. Isso obriga o desenvolvedor a ter o texto completo disponível antes de fazer a requisição de síntese. Embora o Amazon Polly transmita áudio de volta de forma incremental, o gargalo estava no lado da entrada — não era possível começar a enviar texto até que ele estivesse totalmente pronto.

    Em aplicações conversacionais alimentadas por LLMs, onde o texto é gerado token por token, isso significava aguardar a resposta completa do modelo antes de iniciar a síntese. Imagine um assistente virtual: o modelo de linguagem gera tokens progressivamente durante vários segundos, e com TTS tradicional, o usuário tinha que esperar por:

    • O LLM terminar de gerar a resposta completa
    • O serviço de TTS sintetizar todo o texto
    • O áudio ser baixado antes da reprodução começar

    A nova API de streaming bidirecional do Amazon Polly foi projetada especificamente para eliminar esses gargalos.

    O Que Mudou: Streaming Bidirecional

    A API StartSpeechSynthesisStream introduz uma abordagem fundamentalmente diferente:

    • Enviar texto incrementalmente: Transmita texto para o Amazon Polly conforme fica disponível — sem necessidade de aguardar sentenças ou parágrafos completos.
    • Receber áudio imediatamente: Obtenha bytes de áudio sintetizados em tempo real conforme são gerados.
    • Controlar o tempo de síntese: Use configuração de flush para disparar síntese imediata do texto em buffer.
    • Comunicação true duplex: Envie e receba simultaneamente através de uma única conexão.

    Componentes-chave da Arquitetura

    A API funciona através de eventos estruturados que trafegam em ambas as direções:

    Componente Direção Finalidade
    TextEvent Entrada (Cliente → Amazon Polly) Enviar texto a ser sintetizado
    CloseStreamEvent Entrada (Cliente → Amazon Polly) Sinalizar fim da entrada de texto
    AudioEvent Saída (Amazon Polly → Cliente) Receber chunks de áudio sintetizado
    StreamClosedEvent Saída (Amazon Polly → Cliente) Confirmação de conclusão do stream

    Comparação: Antes e Depois

    Implementação Tradicional (Separação de Arquivo)

    Alcançar TTS com baixa latência costumava exigir implementações no nível da aplicação:

    • Lógica customizada de separação de texto no servidor
    • Múltiplas chamadas paralelas à API do Amazon Polly
    • Remontagem complexa de áudio

    Nova Abordagem: Streaming Bidirecional Nativo

    Os benefícios agora são diretos:

    • Nenhuma lógica de separação necessária
    • Uma única conexão persistente
    • Streaming nativo em ambas as direções
    • Redução significativa da complexidade infraestrutural

    Resultados de Performance

    Para medir o impacto real, a AWS comparou a API tradicional SynthesizeSpeech com a nova API StartSpeechSynthesisStream usando as mesmas condições:

    • 7.045 caracteres de prosa (970 palavras)
    • Voz Matthew com mecanismo Generative
    • Saída em MP3 a 24kHz na região us-west-2

    Metodologia de Teste

    Ambos os testes simularam um LLM gerando tokens a aproximadamente 30ms por palavra. No teste da API tradicional, palavras foram agrupadas até um limite de sentença, e então a sentença completa foi enviada como uma requisição SynthesizeSpeech, aguardando a resposta de áudio completa antes de continuar. O teste de streaming bidirecional enviou cada palavra conforme chegava, permitindo que o Amazon Polly começasse a síntese antes que o texto estivesse completo.

    Métrica SynthesizeSpeech Tradicional Streaming Bidirecional Melhoria
    Tempo total de processamento 115.226 ms (~115s) 70.071 ms (~70s) 39% mais rápido
    Chamadas à API 27 1 27x menos chamadas
    Sentenças enviadas 27 (sequencial) 27 (transmitidas como tokens chegam)
    Total de bytes de áudio 2.354.292 2.324.636

    A vantagem arquitetural é clara: a API bidirecional permite enviar texto de entrada e receber áudio sintetizado simultaneamente por uma única conexão. Em vez de aguardar cada sentença se acumular antes de solicitar síntese, o texto flui para o Amazon Polly palavra por palavra conforme o LLM o produz. Para IA conversacional, isso significa que o Polly recebe e processa texto incrementalmente durante toda a geração, não tudo de uma vez após o modelo terminar. O resultado é menos tempo em espera pela síntese após a geração ser concluída — a latência de ponta a ponta do prompt até a entrega completa do áudio se reduz significativamente.

    Implementação Técnica

    Começando a Usar

    A API de streaming bidirecional está disponível nos AWS SDKs para Java 2.x, JavaScript v3, .NET v4, C++, Go v2, Kotlin, PHP v3, Ruby v3, Rust e Swift. Suporte para CLIs (AWS Command Line Interface v1 e v2, PowerShell v4 e v5), Python e .NET v3 ainda não estão disponíveis.

    Um exemplo básico de inicialização:

    // Criar o cliente Polly assíncrono
    PollyAsyncClient pollyClient = PollyAsyncClient.builder()
    .region(Region.US_WEST_2)
    .credentialsProvider(DefaultCredentialsProvider.create())
    .build();

    // Criar a requisição de stream
    StartSpeechSynthesisStreamRequest request = StartSpeechSynthesisStreamRequest.builder()
    .voiceId(VoiceId.JOANNA)
    .engine(Engine.GENERATIVE)
    .outputFormat(OutputFormat.MP3)
    .sampleRate("24000")
    .build();

    Fonte

    Introducing Amazon Polly Bidirectional Streaming: Real-time speech synthesis for conversational AI (https://aws.amazon.com/blogs/machine-learning/introducing-amazon-polly-bidirectional-streaming-real-time-speech-synthesis-for-conversational-ai/)

  • Inferência com IA Generativa na Região da Nova Zelândia: Como o Amazon Bedrock Expande sua Cobertura no Pacífico Asiático

    Inferência de IA generativa chega à Nova Zelândia

    A AWS ampliou seus serviços de IA generativa ao anunciar a disponibilidade do Amazon Bedrock na região do Pacífico Asiático, especificamente em Auckland (ap-southeast-6). Essa expansão responde a uma demanda crescente de clientes neozelandeses que buscavam acessar modelos de fundação diretamente de sua região local, sem necessidade de roteamento complexo ou latência adicional.

    Com esse lançamento, clientes em Auckland ganham acesso imediato aos modelos Anthropic Claude (incluindo Opus 4.5, Opus 4.6, Sonnet 4.5, Sonnet 4.6 e Haiku 4.5) e aos modelos Amazon Nova 2 Lite. A grande novidade é que essa capacidade agora funciona através de roteamento entre regiões diretamente da Nova Zelândia, eliminando a necessidade de chamadas de API de fora do país.

    Como funciona o roteamento entre regiões

    O conceito de roteamento entre regiões (cross-region inference) é central para entender como o serviço opera. Trata-se de um recurso do Amazon Bedrock que distribui o processamento de inferência entre múltiplas regiões AWS para alcançar maior throughput em larga escala.

    O fluxo de requisições

    Quando você invoca um perfil de inferência entre regiões, o Amazon Bedrock roteia sua requisição da região de origem (onde você faz a chamada de API) para uma região de destino (onde o processamento de inferência ocorre). Todo dado transmitido durante essas operações permanece exclusivamente na rede privada AWS, sem passar pela internet pública. Além disso, todos os dados são criptografados em trânsito entre as regiões.

    Todas as requisições de inferência entre regiões são registradas no AWS CloudTrail na região de origem. Se você configurar o registro de invocação de modelos, os logs são publicados no Amazon CloudWatch Logs ou Amazon Simple Storage Service (S3), sempre na mesma região.

    Dois tipos de perfis de roteamento

    A AWS oferece duas abordagens diferentes para roteamento entre regiões:

    • Roteamento geográfico (AU): Roteia requisições dentro de um limite geográfico específico. No caso do perfil AU com Auckland como origem, as requisições são roteadas para Auckland, Sydney e Melbourne. Essa abordagem é ideal para organizações com requisitos de residência de dados que precisam manter o processamento de inferência dentro da Austrália e Nova Zelândia.
    • Roteamento global: Roteia requisições para todas as regiões AWS comerciais suportadas no mundo, fornecendo o throughput mais alto disponível. Essa opção é apropriada para organizações sem requisitos rigorosos de residência de dados.

    A Nova Zelândia como região de origem

    Com este lançamento, Auckland torna-se uma nova região de origem para ambos os perfis de roteamento entre regiões: o geográfico AU e o global. Isso significa que você pode fazer chamadas de API do Amazon Bedrock diretamente da região neozelandesa, com as requisições sendo roteadas para as regiões de destino onde os modelos de fundação processam a inferência.

    Configuração do roteamento geográfico AU

    O perfil AU agora abrange três regiões distribuídas pela Austrália e Nova Zelândia. A estrutura de roteamento funciona da seguinte forma:

    • De Auckland (ap-southeast-6): Requisições podem ser roteadas para Auckland, Sydney (ap-southeast-2) e Melbourne (ap-southeast-4)
    • De Sydney (ap-southeast-2): Requisições continuam sendo roteadas apenas para Sydney ou Melbourne
    • De Melbourne (ap-southeast-4): Requisições continuam sendo roteadas apenas para Sydney ou Melbourne

    Um detalhe importante: os perfis de roteamento AU que já existiam para Sydney e Melbourne continuam funcionando apenas entre essas duas cidades. A adição de Auckland não altera os destinos existentes para clientes nessas regiões. No entanto, requisições originando de Auckland têm três regiões de destino disponíveis, permitindo maior distribuição de carga.

    Roteamento global a partir da Nova Zelândia

    Para organizações sem requisitos rigorosos de residência de dados, o roteamento global oferece acesso à capacidade de inferência em todas as regiões AWS comerciais suportadas. Essa abordagem entrega dois benefícios principais:

    • Maior throughput: O roteamento inteligente distribui o tráfego dinamicamente entre todas as regiões suportadas, reduzindo a probabilidade de limitação durante picos de demanda
    • Resiliência integrada: Requisições são automaticamente roteadas para regiões com capacidade disponível, ajudando suas aplicações a manter continuidade operacional à medida que padrões de demanda mudam

    Modelos suportados e IDs de perfis de inferência

    O roteamento entre regiões a partir da Nova Zelândia oferece suporte a modelos de fundação de múltiplos fornecedores. Os modelos Anthropic Claude mais recentes incluem Opus 4.6, Sonnet 4.6, Sonnet 4.5 e Haiku 4.5, disponíveis através tanto do roteamento AU quanto global.

    Para usar um perfil de roteamento entre regiões, você substitui o ID do modelo de fundação original adicionando um prefixo geográfico (au.) ou global (global.). Por exemplo, o modelo anthropic.claude-sonnet-4-6 torna-se au.anthropic.claude-sonnet-4-6 ou global.anthropic.claude-sonnet-4-6.

    Para obter a lista completa e atualizada de modelos suportados e IDs de perfis de inferência, consulte a documentação sobre Regiões suportadas e modelos para perfis de inferência.

    Os perfis de roteamento entre regiões funcionam com as APIs InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream. A API Converse é especialmente útil pois oferece um formato consistente de requisição e resposta entre diferentes modelos de fundação, facilitando a troca entre modelos sem reescrever código de integração.

    Configuração de permissões de acesso

    Para invocar modelos de fundação através do roteamento geográfico AU a partir de Auckland, sua política de AWS Identity and Access Management (IAM) precisa de dois elementos:

    • Permissão para acessar o perfil de inferência na região de origem
    • Permissão para acessar o modelo de fundação em todas as regiões de destino do perfil AU

    Aqui está um exemplo de política IAM que concede permissão para invocar o Anthropic Claude Sonnet 4.6 através do roteamento geográfico AU a partir de Auckland:

    {
      "Version": "2012-10-17",
      "Statement": [
        {
          "Sid": "AllowAuCrisInferenceProfile",
          "Effect": "Allow",
          "Action": [
            "bedrock:InvokeModel",
            "bedrock:InvokeModelWithResponseStream"
          ],
          "Resource": "arn:aws:bedrock:ap-southeast-6::inference-profile/au.anthropic.claude-sonnet-4-6"
        },
        {
          "Sid": "AllowFoundationModelViaAuCris",
          "Effect": "Allow",
          "Action": [
            "bedrock:InvokeModel",
            "bedrock:InvokeModelWithResponseStream"
          ],
          "Resource": [
            "arn:aws:bedrock:ap-southeast-2::foundation-model/anthropic.claude-sonnet-4-6",
            "arn:aws:bedrock:ap-southeast-4::foundation-model/anthropic.claude-sonnet-4-6",
            "arn:aws:bedrock:ap-southeast-6::foundation-model/anthropic.claude-sonnet-4-6"
          ],
          "Condition": {
            "StringLike": {
              "bedrock:InferenceProfileArn": "arn:aws:bedrock:ap-southeast-6::inference-profile/au.anthropic.claude-sonnet-4-6"
            }
          }
        }
      ]
    }

    A primeira declaração permite invocar o perfil de inferência AU a partir da região de origem Auckland. A segunda declaração permite que o modelo de fundação seja invocado nas três regiões de destino, mas apenas quando a requisição é roteada através do perfil de inferência AU. Isso segue o princípio do menor privilégio, impedindo invocação direta do modelo nessas regiões.

    O mesmo padrão de duas declarações aplica-se a qualquer modelo no perfil de roteamento AU. Simplesmente substitua o ID do modelo nos ARNs de recurso. Para políticas IAM de roteamento global e padrões avançados de segurança, consulte a documentação sobre Segurança do roteamento entre regiões do Amazon Bedrock.

    Segurança e conformidade

    O roteamento entre regiões é projetado com segurança como núcleo central. Todas as requisições viajam exclusivamente pela Rede Global AWS com criptografia ponta a ponta, e seus dados em repouso permanecem na região de origem.

    Considerações com Service Control Policies

    Para organizações que usam Service Control Policies (SCP) para restringir acesso a regiões AWS específicas, há pontos importantes a considerar ao chamar a partir de Auckland (ap-southeast-6):

    • O roteamento geográfico AU requer que você permita ap-southeast-2, ap-southeast-4 e ap-southeast-6 para ações do Amazon Bedrock em suas SCPs, pois o perfil AU de Auckland roteia para todas as três regiões ANZ
    • O roteamento global requer adicionalmente que você permita um valor de região não especificado para ações do Amazon Bedrock, já que regiões de destino são determinadas dinamicamente

    A seguir, um exemplo de SCP que restringe serviços à região Auckland, com exceções para Amazon Bedrock e serviços globais como IAM:

    {
      "Version": "2012-10-17",
      "Statement": [
        {
          "Sid": "DenyNonBedrockServicesOutsideAuckland",
          "Effect": "Deny",
          "NotAction": [
            "bedrock:*",
            "iam:*",
            "organizations:*",
            "support:*"
          ],
          "Resource": "*",
          "Condition": {
            "StringNotEquals": {
              "aws:RequestedRegion": ["ap-southeast-6"]
            }
          }
        },
        {
          "Sid": "DenyBedrockOutsideANZRegions",
          "Effect": "Deny",
          "Action": "bedrock:*",
          "Resource": "*",
          "Condition": {
            "StringNotEquals": {
              "aws:RequestedRegion": [
                "ap-southeast-2",
                "ap-southeast-4",
                "ap-southeast-6"
              ]
            }
          }
        },
        {
          "Sid": "DenyDirectBedrockInDestinationRegions",
          "Effect": "Deny",
          "Action": "bedrock:*",
          "Resource": "*",
          "Condition": {
            "StringEquals": {
              "aws:RequestedRegion": [
                "ap-southeast-2",
                "ap-southeast-4"
              ]
            },
            "Null": {
              "bedrock:InferenceProfileArn": "true"
            }
          }
        }
      ]
    }

    Nessa política de exemplo: a primeira declaração restringe todos os serviços à região Auckland, exceto Amazon Bedrock e serviços globais como IAM, AWS Organizations e AWS Support. A segunda declaração restringe Amazon Bedrock às três regiões ANZ, necessária para que o roteamento AU rotear requisições de Auckland para Sydney e Melbourne. A terceira utiliza a condição Null em bedrock:InferenceProfileArn para negar qualquer requisição do Amazon Bedrock em Sydney ou Melbourne que não seja roteada através de um perfil de roteamento entre regiões.

    Auditoria e monitoramento

    AWS CloudTrail registra todas as chamadas de inferência entre regiões na região de origem. O campo additionalEventData.inferenceRegion registra onde cada requisição foi processada, permitindo que você audite exatamente onde a inferência ocorreu.

    Para monitoramento operacional em tempo real, Amazon CloudWatch fornece métricas para requisições de inferência entre regiões em sua região de origem. As métricas principais incluem:

    • InvocationCount: Número total de requisições de inferência
    • InvocationLatency: Tempo de resposta ponta a ponta incluindo roteamento entre regiões
    • InvocationClientErrors: Requisições falhadas, incluindo limitação (picos indicam que você está se aproximando dos limites de quota)
    • InputTokenCount e OutputTokenCount: Consumo de tokens para rastreamento de quota

    Gerenciamento de quotas

    As quotas de serviço do Amazon Bedrock são gerenciadas no nível da região de origem. Aumentos de quota solicitados a partir da região Auckland (ap-southeast-6) aplicam-se apenas a requisições originando de Auckland.

    As quotas são medidas em duas dimensões:

    • Tokens por minuto (TPM): Número máximo de tokens (entrada + saída) processados por minuto
    • Requisições por minuto (RPM): Número máximo de requisições de inferência por minuto

    Ao calcular sua quota necessária, leve em conta a taxa de consumo de tokens. Para Anthropic Claude Opus 4.6, Sonnet 4.6 e Sonnet 4.5, tokens de saída consomem cinco vezes mais quota que tokens de entrada (taxa 5:1). Para Claude Haiku 4.5 e modelos Amazon Nova, a taxa é 1:1.

    A fórmula de consumo de quota é: Consumo de quota = Tokens de entrada + Tokens de cache de escrita + (Tokens de saída × Taxa de consumo)

    Para solicitar aumentos de quota, navegue até o console de Quotas de Serviço AWS em sua região de origem, selecione Amazon Bedrock e procure pela quota de roteamento entre regiões relevante para seu modelo.

    Primeiros passos

    Para começar a usar roteamento entre regiões a partir da Nova Zelândia, siga estes passos:

    • Entre no console do Amazon Bedrock na região Auckland (ap-southeast-6)
    • Configure permissões de IAM e SCP usando os exemplos de política fornecidos
    • Faça sua primeira chamada de API usando o ID de perfil de inferência au.
    • Solicite aumentos de quota através do console de Quotas de Serviço com base em sua carga de trabalho esperada

    Conclusão

    A expansão do Amazon Bedrock para Auckland representa um marco importante na disponibilidade de IA generativa no Pacífico Asiático. Os pontos principais dessa novidade são:

    • Auckland torna-se agora uma região de origem para roteamento entre regiões, permitindo que clientes neozelandeses façam chamadas de API do Amazon Bedrock localmente
    • O roteamento geográfico AU mantém dados dentro da zona ANZ, com requisições de Auckland roteadas para três destinos (Auckland, Sydney e Melbourne)
    • O roteamento global expande o acesso a modelos, oferecendo o throughput mais alto disponível ao rotear requisições para regiões AWS comerciais em todo o mundo
    • As configurações de roteamento existentes para Sydney e Melbourne permanecem inalteradas, garantindo continuidade para clientes australianos

    Para mais informações, consulte documentação do Amazon Bedrock, o Guia do Usuário de Roteamento Entre Regiões, Regiões suportadas e modelos para perfis de inferência e Segurança do roteamento entre regiões do Amazon Bedrock.

    Fonte

    Run Generative AI inference with Amazon Bedrock in Asia Pacific (New Zealand) (https://aws.amazon.com/blogs/machine-learning/run-generative-ai-inference-with-amazon-bedrock-in-asia-pacific-new-zealand/)

  • Amazon ECS Managed Instances agora suporta workloads FIPS-certified em instâncias Graviton e GPU no AWS GovCloud

    Conformidade FIPS em Amazon ECS Managed Instances

    A partir de março de 2026, a AWS disponibilizou suporte para workloads compatíveis com FIPS (Padrão Federal de Processamento de Informações) em Amazon ECS Managed Instances nas regiões AWS GovCloud (US). Este recurso permite que clientes com requisitos de conformidade federal executem cargas de trabalho utilizando módulos criptográficos validados por FIPS em um amplo espectro de tipos de instâncias.

    O que é FIPS e por que importa

    FIPS é um padrão de segurança conjunto entre Estados Unidos e Canadá que especifica os requisitos de segurança para módulos criptográficos que protegem informações sensíveis. Para organizações que trabalham com dados governamentais ou operações que exigem conformidade com regulamentações federais, a certificação FIPS é essencial.

    Como funciona a conformidade nas regiões GovCloud

    Nas regiões AWS GovCloud (US), Amazon ECS Managed Instances habilita automaticamente a conformidade FIPS por padrão. O mecanismo de funcionamento envolve:

    • Comunicação através de endpoints compatíveis com FIPS
    • Utilização de módulos criptográficos apropriadamente configurados
    • Inicialização do kernel subjacente em modo FIPS

    Tipos de instâncias suportadas

    Clientes com requisitos de conformidade federal podem executar workloads com módulos criptográficos validados por FIPS em uma variedade de tipos de instância, incluindo:

    • Instâncias baseadas em Graviton
    • Instâncias aceleradas por GPU
    • Instâncias otimizadas para rede
    • Instâncias de desempenho variável (burstable performance)

    Como começar

    Para iniciar o uso de ECS Managed Instances, é possível utilizar diversos caminhos:

    • AWS Console (interface web)
    • Amazon ECS MCP Server
    • ECS Express Mode
    • Ferramentas de infraestrutura como código (IaC) de sua preferência

    Você pode habilitar o recurso em um novo cluster Amazon ECS ou em um cluster existente. Vale observar que será cobrado o gerenciamento da computação provisionada, além dos custos regulares de Amazon EC2.

    Próximas etapas

    Para aprender mais sobre FIPS, consulte os materiais disponibilizados pela AWS sobre FIPS na AWS e conformidade FIPS para AWS Fargate. Para informações completas sobre ECS Managed Instances, você pode acessar a página do recurso, a documentação técnica e o blog de lançamento da AWS.

    Fonte

    Amazon ECS Managed Instances now supports FIPS-certified workloads on Graviton and GPU accelerated instances in AWS GovCloud (US) Regions (https://aws.amazon.com/about-aws/whats-new/2026/03/amazon-ecs-mi-supports-fips-graviron-gpu/)

  • Amazon Bedrock AgentCore agora suporta políticas do Chrome e Autoridades Certificadoras customizadas

    Novos recursos de segurança e conformidade no AgentCore

    A AWS anunciou expansões significativas no Amazon Bedrock AgentCore, seu serviço para executar agentes de IA autônomos. A empresa adicionou suporte a políticas do Chrome Enterprise e certificados customizados de Autoridade Certificadora (AC), recursos essenciais para organizações com requisitos rigorosos de segurança e infraestrutura interna complexa.

    Políticas do Chrome para controle granular

    O novo suporte a políticas do Chrome Enterprise no AgentCore Browser oferece controle sobre mais de 100 políticas configuráveis. Essas políticas abrangem múltiplas dimensões de segurança: comportamento do navegador, filtragem de URLs, configurações de conteúdo e outras funcionalidades.

    Alguns exemplos práticos de uso incluem:

    • Restringir agentes a URLs específicas para operações em modo quiosque
    • Desabilitar gerenciadores de senha e downloads em tarefas de entrada de dados
    • Implementar listas de bloqueio de URLs para atender conformidade regulatória

    Essa abordagem permite que as organizações forçem requisitos de conformidade específicos enquanto permitem que agentes de IA operem autonomamente dentro de limites bem definidos.

    Suporte a Autoridades Certificadoras customizadas

    O novo suporte a certificados de AC customizados resolve um desafio comum em ambientes corporativos: a integração com serviços internos que utilizam certificados SSL assinados pela Autoridade Certificadora interna da organização.

    Com esse recurso, agentes de IA podem se conectar perfeitamente a serviços internos como Artifactory, Jira e portais financeiros, além de trabalhar com proxies corporativos que realizam interceptação TLS. Essa capacidade é fundamental para manter a segurança sem fragmentar a operação de agentes autônomos em ambientes corporativos complexos.

    Disponibilidade global

    Os novos recursos estão disponíveis em todas as 14 regiões da AWS onde o Amazon Bedrock AgentCore Browser e Code Interpreter operam:

    • US East (N. Virginia), US East (Ohio), US West (Oregon)
    • Europe (Frankfurt), Europe (Ireland), Europe (London), Europe (Paris), Europe (Stockholm)
    • Asia Pacific (Mumbai), Asia Pacific (Singapore), Asia Pacific (Sydney), Asia Pacific (Tokyo), Asia Pacific (Seoul)
    • Canada (Central)

    Próximos passos

    Organizações interessadas em implementar essas funcionalidades podem consultar a documentação do AgentCore Browser para detalhes técnicos de configuração e casos de uso específicos.

    Fonte

    Amazon Bedrock AgentCore adds support for Chrome policies and custom root CA (https://aws.amazon.com/about-aws/whats-new/2026/03/agentcore-browser-policies-root-ca/)

  • AWS Firewall Manager chega à região Asia Pacific (Nova Zelândia)

    Firewall Manager agora disponível na Nova Zelândia

    A AWS anunciou a disponibilidade do Firewall Manager na região Asia Pacific (Nova Zelândia). Essa expansão reforça o compromisso da empresa em oferecer soluções de segurança robustas em diferentes geografias, permitindo que mais organizações acessem ferramentas centralizadas de gerenciamento de segurança.

    O que é o Firewall Manager

    O Firewall Manager é uma solução projetada para auxiliar administradores de segurança em nuvem e engenheiros de confiabilidade de site (SRE) a proteger suas aplicações. Seu principal diferencial é reduzir significativamente a sobrecarga operacional associada à configuração manual e ao gerenciamento de regras de segurança. Em vez de implementar políticas individualmente em cada recurso, os profissionais de segurança podem criar e manter políticas centralizadas.

    Capacidades e benefícios

    Ao trabalhar com o Firewall Manager, os clientes conseguem implementar políticas de defesa em profundidade que cobrem toda a gama de serviços de segurança disponíveis na AWS. Isso é especialmente valioso para organizações que hospedam suas aplicações e cargas de trabalho em regiões como a de Taipei e agora também em Nova Zelândia.

    Uma das aplicações mais comuns do Firewall Manager é a criação e manutenção de políticas de segurança integradas com o AWS WAF (Web Application Firewall). Dessa forma, os clientes podem estabelecer ativos protegidos de forma padronizada e escalável.

    Como começar

    Para organizações interessadas em implementar o Firewall Manager em Nova Zelândia, a AWS oferece documentação técnica detalhada. Consulte a documentação do Firewall Manager para entender melhor como a ferramenta funciona e os passos necessários para implementação.

    Também é recomendado verificar a tabela de regiões da AWS para visualizar a lista completa de regiões onde o Firewall Manager está disponível atualmente, facilitando o planejamento de arquiteturas multi-região.

    Para conhecer em detalhes os recursos, funcionalidades avançadas e modelos de preço do Firewall Manager, acesse o site do Firewall Manager.

    Fonte

    AWS Firewall Manager launches in AWS Asia Pacific (New Zealand) Region (https://aws.amazon.com/about-aws/whats-new/2026/03/aws-firewall-manager-launches-ap-nz/)

  • Desbloqueando análise de vídeos em escala com modelos multimodais do Amazon Bedrock

    O desafio da análise de vídeo em larga escala

    Conteúdo de vídeo está presente em praticamente todos os setores: monitoramento de segurança, produção de mídia, plataformas de redes sociais e comunicações corporativas. Apesar dessa ubiquidade, extrair informações significativas de grandes volumes de vídeo continua sendo um desafio complexo para as organizações.

    O problema vai além de simplesmente identificar objetos na tela. É necessário compreender contexto, fluxo narrativo e significado subjacente do conteúdo. As abordagens tradicionais — revisão manual ou técnicas básicas de visão computacional — enfrentam limitações claras: processamento manual é custoso e lento, sistemas baseados em regras não se adaptam a novos cenários, técnicas convencionais de visão computacional não capturam compreensão semântica e integração em aplicações modernas é complexa.

    A emergência dos modelos multimodais oferecidos pela AWS através do Amazon Bedrock muda esse paradigma. Esses modelos conseguem processar informações visuais e textuais simultaneamente, permitindo compreender cenas, gerar descrições em linguagem natural, responder perguntas sobre conteúdo de vídeo e detectar eventos nuançados que seriam difíceis de programar manualmente.

    Três abordagens para compreensão de vídeos

    Entender conteúdo de vídeo é inerentemente complexo, combinando informações visuais, auditivas e temporais que precisam ser analisadas em conjunto para gerar insights significativos. Diferentes casos de uso — análise de cenas em mídia, detecção de intervalos publicitários, rastreamento de câmeras de segurança ou moderação de conteúdo em redes sociais — exigem fluxos de trabalho distintos com compensações diferentes entre custo, precisão e latência.

    A AWS disponibilizou uma solução com três fluxos de trabalho bem definidos, cada um utilizando métodos distintos de extração de vídeo otimizados para cenários específicos.

    Abordagem por quadros: precisão em escala

    A estratégia baseada em quadros coleta imagens em intervalos fixos, remove quadros semelhantes ou redundantes e aplica modelos multimodais para extrair informações visuais em nível de quadro. A transcrição de áudio é realizada separadamente utilizando o Amazon Transcribe.

    Este fluxo é ideal para:

    • Segurança e vigilância: detectar condições ou eventos específicos ao longo do tempo
    • Garantia de qualidade: monitorar processos de fabricação ou operacionais
    • Conformidade regulatória: verificar aderência a protocolos de segurança

    A arquitetura utiliza AWS Step Functions para orquestrar todo o pipeline de processamento.

    Otimizando custo e qualidade através de amostragem inteligente

    Um componente crítico do fluxo baseado em quadros é a deduplicação inteligente de frames, que reduz significativamente os custos de processamento removendo quadros redundantes enquanto preserva a informação visual relevante. A solução oferece dois métodos distintos de comparação de similaridade.

    Comparação com Multimodal Embeddings (MME) da Nova: Esse método utiliza o modelo de embeddings multimodais do Amazon Nova para gerar representações vetoriais de 256 dimensões de cada quadro. Cada frame é codificado em um vetor de embedding usando o modelo Nova MME, e a distância cosseno entre quadros consecutivos é calculada. Quadros com distância abaixo do limiar (padrão de 0,2, onde valores menores indicam maior similaridade) são removidos.

    Essa abordagem se destaca na compreensão semântica do conteúdo da imagem, mantendo robustez frente a variações menores em iluminação e perspectiva enquanto captura conceitos visuais de alto nível. Porém, incorre em custos adicionais de chamadas à API do Amazon Bedrock para geração de embeddings e adiciona latência ligeiramente maior por quadro. É recomendada para conteúdo onde similaridade semântica importa mais que diferenças em nível de pixel, como detecção de mudanças de cena ou identificação de momentos únicos.

    OpenCV ORB (Oriented FAST and Rotated BRIEF): Utiliza uma abordagem de visão computacional, com detecção de características para identificar e combinar pontos-chave entre quadros consecutivos sem necessidade de chamadas externas a APIs. O ORB detecta pontos-chave e computa descritores binários para cada quadro, calculando a pontuação de similaridade como a razão entre características combinadas e pontos-chave totais. Com limiar padrão de 0,325 (onde valores mais altos indicam similaridade maior), esse método oferece processamento rápido com latência mínima e sem custos adicionais de API.

    A correspondência de características invariante à rotação a torna excelente para detectar movimento de câmera e transições entre quadros. Contudo, pode ser sensível a mudanças significativas de iluminação e pode não capturar similaridade semântica tão efetivamente quanto abordagens baseadas em embeddings. É recomendada para cenários com câmeras estáticas como vigilância, ou aplicações sensíveis a custos onde similaridade em nível de pixel é suficiente.

    Abordagem por cenas: compreendendo o fluxo narrativo

    Em vez de amostrar quadros individuais, o fluxo baseado em cenas segmenta vídeos em clipes curtos (shots) ou segmentos de duração fixa e aplica modelos multimodais a cada segmento. Essa abordagem captura contexto temporal dentro de cada cena enquanto mantém flexibilidade para processar vídeos mais longos.

    Ao gerar rótulos semânticos e embeddings para cada cena, esse método permite busca e recuperação eficiente de vídeos enquanto equilibra precisão e flexibilidade. A arquitetura agrupa cenas em lotes de 10 para processamento paralelo em etapas subsequentes, melhorando throughput enquanto gerencia limites de concorrência do AWS Lambda.

    Este fluxo se destaca em:

    • Produção de mídia: analisar filmagens para marcadores de capítulos e descrições de cenas
    • Catalogação de conteúdo: marcar e organizar automaticamente bibliotecas de vídeos
    • Geração de destaques: identificar momentos-chave em conteúdo de longa duração

    Segmentação de vídeo: duas estratégias diferentes

    O fluxo baseado em cenas oferece opções flexíveis de segmentação para se adequar a características e casos de uso variados. O sistema baixa o arquivo de vídeo do Amazon Simple Storage Service (Amazon S3) para armazenamento temporário no AWS Lambda, aplicando então o algoritmo de segmentação selecionado conforme parâmetros de configuração.

    Detecção de Cenas com OpenCV: Divide automaticamente um vídeo em segmentos baseado em mudanças visuais no conteúdo. Usa a biblioteca PySceneDetect para detectar transições como cortes, mudanças de câmera ou alterações significativas no conteúdo visual. Ao identificar limites naturais de cenas, o sistema mantém momentos relacionados agrupados.

    Essa abordagem é particularmente efetiva para vídeos editados ou com narrativa, como filmes, séries, apresentações e vlogs, onde cenas representam unidades significativas de conteúdo. Como a segmentação segue a estrutura do próprio vídeo, comprimentos de segmento variam conforme ritmo e estilo de edição.

    Segmentação por Duração Fixa: Divide vídeos em intervalos de tempo iguais, independentemente do que está acontecendo no conteúdo. Cada segmento cobre duração consistente (por exemplo, 10 segundos), criando clipes uniformes e previsíveis. Essa abordagem simplifica o processamento e melhora estimativas de tempo e custo.

    Embora possa dividir cenas no meio da ação, segmentação por duração fixa funciona bem para gravações contínuas como vigilância, eventos esportivos ou transmissões ao vivo, onde amostragem regular por tempo é mais importante que preservar limites narrativos.

    Embeddings multimodais: busca semântica de vídeos

    Embedding multimodal representa uma abordagem emergente e poderosa para compreensão de vídeos, especialmente efetiva para aplicações de busca semântica de vídeo. A solução oferece fluxos de trabalho utilizando modelos de Embedding Multimodal do Amazon Nova e o modelo Marengo do TwelveLabs disponíveis no Amazon Bedrock. Esses fluxos permitem:

    • Busca em linguagem natural: encontrar segmentos de vídeo usando consultas em texto
    • Busca por similaridade visual: localizar conteúdo usando imagens de referência
    • Recuperação entre modalidades: fazer ponte entre conteúdo textual e visual

    A arquitetura suporta ambos os modelos de embedding com interface unificada, oferecendo flexibilidade na escolha da melhor solução para cada caso de uso.

    Compreendendo compromissos entre custo e desempenho

    Um dos desafios-chave na análise de vídeo em produção é gerenciar custos enquanto mantém qualidade. A solução oferece rastreamento integrado de uso de tokens e estimativa de custos para ajudar na tomada de decisões informadas sobre seleção de modelos e configuração de fluxos de trabalho.

    Para cada vídeo processado, você recebe desagregação detalhada de custos por tipo de modelo, cobrindo modelos multimodais do Amazon Bedrock e Amazon Transcribe para transcrição de áudio. Com essa visibilidade, é possível refinar a configuração com base em requisitos específicos e restrições orçamentárias.

    Arquitetura da solução

    A solução completa é construída sobre serviços AWS serverless, proporcionando escalabilidade e eficiência de custos. A arquitetura inclui:

    • Serviço de Extração: orquestra fluxos baseados em quadros e cenas usando Step Functions
    • Serviço Nova: backend para Embedding Multimodal Nova com busca vetorial
    • Serviço TwelveLabs: backend para modelos de embedding Marengo com busca vetorial
    • Serviço de Agente: assistente de inteligência artificial alimentado por Agentes do Amazon Bedrock para recomendações de fluxos de trabalho
    • Frontend: aplicação React servida via Amazon CloudFront para interação com usuários
    • Serviço de Análise: notebooks de exemplo demonstrando padrões de análise subsequentes

    Acessando metadados de vídeos

    A solução armazena metadados extraídos em múltiplos formatos para acesso flexível:

    • Amazon S3: Saídas brutas de modelos multimodais, metadados completos de tarefas e ativos processados organizados por ID de tarefa e tipo de dados
    • Amazon DynamoDB: Dados estruturados e consultáveis otimizados para recuperação por vídeo, timestamp ou tipo de análise através de múltiplas tabelas para diferentes serviços
    • API Programática: Invocação direta para automação, processamento em lote e integração em pipelines existentes

    Esse modelo de acesso flexível permite integrar a ferramenta em seus fluxos de trabalho — seja realizando análise exploratória em notebooks, construindo pipelines automatizados ou desenvolvendo aplicações de produção.

    Casos de uso no mundo real

    A solução inclui notebooks de exemplo demonstrando três cenários comuns:

    • Detecção de Eventos em Câmeras IP: Monitorar automaticamente vigilância para eventos ou condições específicas sem supervisão humana contínua
    • Análise de Capítulos em Mídia: Segmentar conteúdo de vídeo de longa duração em capítulos lógicos com descrições e metadados automáticos
    • Moderação de Conteúdo em Redes Sociais: Revisar conteúdo de vídeo gerado por usuários em escala para garantir conformidade com diretrizes de plataforma

    Esses exemplos fornecem pontos de partida que você pode estender e customizar para seus casos de uso específicos.

    Começando: implantação da solução

    A solução está disponível como pacote CDK no GitHub e pode ser implantada em sua conta AWS com apenas alguns comandos. A implantação cria todos os recursos necessários, incluindo:

    • Máquinas de estado Step Functions para orquestração
    • Funções Lambda para lógica de processamento
    • Tabelas DynamoDB para armazenamento de metadados
    • Buckets S3 para armazenamento de ativos
    • Distribuição CloudFront para a interface web
    • Pool de usuários Amazon Cognito para autenticação

    Após a implantação, você pode imediatamente começar a fazer upload de vídeos, experimentar diferentes pipelines de análise e modelos multimodais, e comparar desempenho entre configurações.

    Conclusão

    Análise de vídeo sofisticada não está mais limitada a organizações com equipes especializadas em visão computacional e infraestrutura dedicada. Os modelos multimodais do Amazon Bedrock, combinados com serviços serverless da AWS, tornam análise de vídeo avançada acessível e economicamente viável.

    Quer você esteja construindo sistemas de monitoramento de segurança, ferramentas de produção de mídia ou plataformas de moderação de conteúdo, as três abordagens arquiteturais demonstradas nessa solução fornecem pontos de partida flexíveis projetados para requisitos variados. A chave é escolher a abordagem certa para seu caso de uso: baseada em quadros para monitoramento preciso, baseada em cenas para conteúdo narrativo e baseada em embeddings para busca semântica.

    À medida que modelos multimodais continuam evoluindo, veremos capacidades ainda mais sofisticadas de compreensão de vídeo emergindo. O futuro é sobre inteligência artificial que não apenas vê quadros de vídeo, mas verdadeiramente compreende a história que eles contam.

    Próximos passos

    Fonte

    Unlocking video insights at scale with Amazon Bedrock multimodal models (https://aws.amazon.com/blogs/machine-learning/unlocking-video-insights-at-scale-with-amazon-bedrock-multimodal-models/)

  • SageMaker Unified Studio agora se conecta com o Cursor IDE para desenvolvimento com IA

    Uma ponte entre seu IDE local e a infraestrutura em nuvem

    A AWS anunciou um recurso que promete mudar a forma como desenvolvedores trabalham com machine learning e análise de dados. Agora é possível conectar o Cursor IDE diretamente ao Amazon SageMaker Unified Studio usando a extensão AWS Toolkit. Essa integração elimina a necessidade de alternar constantemente entre seu ambiente local e a infraestrutura em nuvem, mantendo você dentro de um único e coeso espaço de desenvolvimento.

    Cientistas de dados, engenheiros de aprendizado de máquina e desenvolvedores podem agora aproveitar todos os recursos do Cursor — incluindo sua conclusão de código alimentada por IA, edição por linguagem natural e edição de múltiplos arquivos — enquanto acessam os recursos computacionais escaláveis do Amazon SageMaker.

    O que essa integração oferece

    Continuidade no seu fluxo de trabalho

    Ao conectar o Cursor ao SageMaker Unified Studio, você preserva sua configuração personalizada do IDE local — com suas regras customizadas, extensões preferidas e preferências de modelos de IA — enquanto acessa simultaneamente seus recursos computacionais e dados armazenados no Amazon SageMaker. Tudo isso acontece em um único ambiente integrado, consolidando seus serviços de análise e IA/ML da AWS.

    Segurança em primeiro lugar

    Como o Cursor é construído sobre Code-OSS (Software de Código Aberto), a autenticação ocorre de forma segura através do AWS IAM via extensão AWS Toolkit. Isso garante acesso controlado a todos os seus domínios e projetos dentro do SageMaker Unified Studio, mantendo o padrão de segurança de nível empresarial que suas operações exigem.

    Capacidades ampliadas para seus projetos

    O SageMaker Unified Studio, parte da próxima geração do Amazon SageMaker, oferece um conjunto completo de ambientes integrados de desenvolvimento totalmente gerenciados. Você já podia usar JupyterLab e Code Editor baseado em Code-OSS. Agora, essa cobertura se estende ao seu Cursor local totalmente customizado, abrindo possibilidades de um único ponto de acesso para:

    • Processamento e transformação de dados
    • Análise SQL através de serviços como Amazon EMR, AWS Glue e Amazon Athena
    • Fluxos de trabalho de aprendizado de máquina

    Tudo isso com suporte a criptografia gerenciada pelo cliente e integração com AWS IAM para atender aos requisitos mais exigentes de segurança empresarial.

    Disponibilidade e próximos passos

    Esse recurso está disponível em todas as regiões da AWS onde o Amazon SageMaker Unified Studio opera. Se você deseja começar a usar essa integração, a documentação de suporte para IDE local oferece guias completos de configuração. Você também pode consultar a lista de regiões da AWS onde o SageMaker Unified Studio está disponível para verificar se a solução já está em sua região.

    Fonte

    Amazon SageMaker Unified Studio launches support for remote connection from Cursor IDE (https://aws.amazon.com/about-aws/whats-new/2026/03/sagemaker-unified-studio-cursor-ide/)