Author: Make.com Service User

  • AWS Config expande suporte para 30 novos tipos de recursos

    Ampliação do suporte a tipos de recursos

    A AWS anunciou uma expansão significativa no AWS Config, incorporando suporte a 30 tipos adicionais de recursos em seus principais serviços. Essa ampliação abrange serviços importantes como Amazon EKS (Elastic Kubernetes Service), Amazon Q e AWS IoT, proporcionando aos usuários uma cobertura muito mais abrangente de seus ambientes em nuvem.

    A inclusão desses novos tipos de recursos permite que organizações descubram, avaliem, auditem e remediem uma faixa significativamente mais ampla de recursos. Para quem já possui a gravação habilitada para todos os tipos de recursos, a novidade funciona de forma automática — o AWS Config passa a rastrear esses novos tipos imediatamente, sem necessidade de configurações adicionais.

    Recursos monitoráveis em novos contextos

    Os novos tipos de recursos agora estão disponíveis não apenas no AWS Config, mas também integrados com Config rules (regras de configuração) e Config aggregators (agregadores de configuração). Isso significa que as estratégias de conformidade e auditoria ganham ferramentas ainda mais robustas para manter seus ambientes sob controle.

    Cobertura geográfica

    Você pode agora utilizar o AWS Config para monitorar os seguintes tipos de recursos em todas as regiões AWS onde esses recursos estejam disponíveis.

    Tipos de recursos adicionados

    A lista de novos tipos de recursos suportados inclui capacidades em múltiplos domínios:

    • AWS::ApplicationSignals::ServiceLevelObjective
    • AWS::IoT::SoftwarePackage
    • AWS::ARCZonalShift::AutoshiftObserverNotificationStatus
    • AWS::IoT::TopicRule
    • AWS::B2BI::Transformer
    • AWS::IoTWireless::Destination
    • AWS::CE::CostCategory
    • AWS::IoTWireless::DeviceProfile
    • AWS::CleanRooms::ConfiguredTable
    • AWS::IoTWireless::NetworkAnalyzerConfiguration
    • AWS::CleanRooms::Membership
    • AWS::IoTWireless::TaskDefinition
    • AWS::CodeArtifact::PackageGroup
    • AWS::IoTWireless::WirelessGateway
    • AWS::Connect::Prompt
    • AWS::Kinesis::ResourcePolicy
    • AWS::EKS::Nodegroup
    • AWS::PCAConnectorSCEP::Connector
    • AWS::GameLift::MatchmakingRuleSet
    • AWS::QBusiness::Application
    • AWS::GameLift::Script
    • AWS::QuickSight::DataSet
    • AWS::Glue::Crawler
    • AWS::QuickSight::Dashboard
    • AWS::InternetMonitor::Monitor
    • AWS::Route53::DNSSEC
    • AWS::IoT::BillingGroup
    • AWS::SSM::PatchBaseline
    • AWS::IoT::ResourceSpecificLogging
    • AWS::Transfer::User

    Implicações para governança em nuvem

    Essa expansão reflete o compromisso contínuo da AWS com melhorias em visibilidade e controle. À medida que ambientes em nuvem crescem em complexidade — especialmente com adoção de contêineres via EKS, soluções de negócios via Amazon Q e conectividade via IoT — a necessidade de rastreabilidade e auditoria completa se torna crítica para conformidade e segurança.

    Fonte

    AWS Config now supports 30 new resource types (https://aws.amazon.com/about-aws/whats-new/2026/02/aws-config-new-resource-types)

  • Saídas estruturadas no Amazon Bedrock: respostas de IA em conformidade com esquema

    Uma mudança fundamental na geração de JSON estruturado

    A AWS anunciou uma novidade no Amazon Bedrock que redefine como os desenvolvedores trabalham com respostas estruturadas de modelos de inteligência artificial. A capacidade de saídas estruturadas representa um avanço significativo: pela primeira vez, é possível garantir que as respostas JSON dos modelos de fundação estejam sempre em conformidade com um esquema especificado, através de decodificação restrita.

    Essa transformação muda fundamentalmente a arquitetura dos aplicativos. Em vez de criar elaborados sistemas de validação, tratamento de erros e lógica de reprocessamento quando a IA retorna dados mal formatados, os desenvolvedores agora podem construir com confiança, sabendo que cada resposta respeitará exatamente o formato esperado.

    Os casos de uso potenciais são diversos: pipelines de extração de dados sem necessidade de validação, sistemas de agentes de IA que chamam funções externas com segurança, e arquiteturas de aplicação simplificadas que dispensam lógica de retry. Um notebook Jupyter companion fornece exemplos práticos para todas as funcionalidades abordadas.

    Os desafios tradicionais com geração de JSON

    Historicamente, obter dados estruturados de modelos de linguagem era um processo frágil. Os desenvolvedores precisavam elaborar prompts detalhados, esperar pelo melhor resultado e construir sistemas complexos de tratamento de erros. Mesmo com prompts cuidadosamente preparados, problemas recorrentes surgem:

    • Falhas de análise: JSON sintaticamente inválido que quebra chamadas de json.loads()
    • Campos ausentes: Pontos de dados necessários não retornam nas respostas
    • Incompatibilidades de tipo: Strings onde inteiros são esperados, quebra processamento downstream
    • Violações de esquema: Respostas que tecnicamente são JSON válido, mas não correspondem ao modelo de dados esperado

    Em sistemas em produção, esses problemas se multiplicam. Uma única resposta malformada pode atravessar um pipeline inteiro, exigindo reprocessamentos que aumentam latência e custos. Para fluxos de trabalho com agentes, parâmetros inválidos podem quebrar completamente chamadas de função.

    Considere um exemplo concreto: um sistema de reservas que necessita do campo passageiros: int. Sem imposição de esquema, o modelo pode retornar passageiros: "dois" ou passageiros: "2"—ambos são JSON sintaticamente válido, mas semanticamente incorretos para a assinatura da função.

    Como as saídas estruturadas transformam a situação

    As saídas estruturadas no Amazon Bedrock não representam uma melhoria incremental—trata-se de um deslocamento fundamental de formatação probabilística para determinística. Através de decodificação restrita, o Bedrock força as respostas do modelo a estarem em conformidade com o esquema JSON especificado.

    Dois mecanismos complementares estão disponíveis:

    • Formato de saída JSON Schema: Controla o formato da resposta do modelo. Ideal para extração de dados, geração de relatórios e respostas prontas para APIs.
    • Uso de ferramenta restrita: Valida parâmetros de ferramentas. Essencial para fluxos de trabalho com agentes, chamadas de função e automação em múltiplas etapas.

    Essas funcionalidades podem ser usadas independentemente ou em conjunto, oferecendo controle preciso sobre tanto o que o modelo retorna quanto como chama suas funções.

    Os benefícios entregues são significativos:

    • Sempre válido: Sem erros de JSON.parse() ou exceções de análise
    • Type-safe: Tipos de campos são impostos e campos obrigatórios sempre estão presentes
    • Confiável: Sem necessidade de reprocessamentos por violações de esquema
    • Pronto para produção: Deploy com confiança em escala empresarial

    O funcionamento técnico das saídas estruturadas

    As saídas estruturadas utilizam amostragem restrita com artefatos de gramática compilados. Quando uma requisição é feita, o Bedrock executa as seguintes etapas:

    • Validação de esquema: O Amazon Bedrock valida o esquema JSON contra um subconjunto suportado do JSON Schema Draft 2020-12
    • Compilação de gramática: Para esquemas novos, o Bedrock compila uma gramática (a primeira requisição pode levar mais tempo)
    • Cache: Gramáticas compiladas são mantidas em cache por 24 horas, acelerando requisições subsequentes
    • Geração restrita: O modelo gera tokens que produzem JSON válido correspondendo ao esquema

    Considerações de desempenho

    A latência inicial é um fator importante a considerar. A compilação inicial pode adicionar latência para esquemas novos. Entretanto, requisições subsequentes com esquemas idênticos têm overhead mínimo, pois a gramática compilada permanece em cache.

    O escopo do cache é por conta, durando 24 horas a partir do primeiro acesso. Alterar a estrutura do esquema JSON ou do esquema de entrada de uma ferramenta invalida o cache, mas modificar apenas nomes ou campos de descrição não.

    Começando com saídas estruturadas

    O seguinte exemplo demonstra saídas estruturadas usando a Converse API:

    import boto3
    import json
    
    # Initialize the Bedrock Runtime client
    bedrock_runtime = boto3.client(
        service_name='bedrock-runtime',
        region_name='us-east-1'  # Choose your preferred region
    )
    
    # Define your JSON schema
    extraction_schema = {
        "type": "object",
        "properties": {
            "name": {"type": "string", "description": "Customer name"},
            "email": {"type": "string", "description": "Customer email address"},
            "plan_interest": {"type": "string", "description": "Product plan of interest"},
            "demo_requested": {"type": "boolean", "description": "Whether a demo was requested"}
        },
        "required": ["name", "email", "plan_interest", "demo_requested"],
        "additionalProperties": False
    }
    
    # Make the request with structured outputs
    response = bedrock_runtime.converse(
        modelId="us.anthropic.claude-opus-4-5-20251101-v1:0",
        messages=[
            {
                "role": "user",
                "content": [
                    {
                        "text": "Extract the key information from this email: John Smith (john@example.com) is interested in our Enterprise plan and wants to schedule a demo for next Tuesday at 2pm."
                    }
                ]
            }
        ],
        inferenceConfig={
            "maxTokens": 1024
        },
        outputConfig={
            "textFormat": {
                "type": "json_schema",
                "structure": {
                    "jsonSchema": {
                        "schema": json.dumps(extraction_schema),
                        "name": "lead_extraction",
                        "description": "Extract lead information from customer emails"
                    }
                }
            }
        }
    )
    
    # Parse the schema-compliant JSON response
    result = json.loads(response["output"]["message"]["content"][0]["text"])
    print(json.dumps(result, indent=2))

    A saída obtida está em conformidade total com o esquema—sem validação adicional necessária:

    {
      "name": "John Smith",
      "email": "john@example.com",
      "plan_interest": "Enterprise",
      "demo_requested": true
    }

    Requisitos e melhores práticas

    Para utilizar saídas estruturadas efetivamente, algumas orientações devem ser seguidas:

    Configuração de esquema obrigatória

    Configure additionalProperties: false em todos os objetos. Essa é uma configuração necessária para que saídas estruturadas funcionem. Sem ela, o esquema não será aceito:

    {
        "type": "object",
        "properties": {
            "name": {"type": "string"}
        },
        "required": ["name"],
        "additionalProperties": false
    }

    Nomes e descrições descritivas

    Use nomes de propriedade e descrições claros. Os modelos utilizam nomes de propriedades e descrições para compreender quais dados extrair. Nomes descritivos como customer_email têm melhor desempenho do que nomes genéricos como field1.

    Enumerações para valores restritos

    Quando um campo possui um conjunto limitado de valores válidos, use enum para restringir opções. Isso melhora a precisão e garante valores válidos.

    Incrementalismo na construção

    Comece com os campos mínimos necessários e adicione complexidade gradualmente. Esquemas básicos compilam mais rapidamente e são mais fáceis de manter.

    Reutilização de esquemas

    Estruture sua aplicação para reutilizar esquemas entre requisições. O cache de gramática de 24 horas melhora significativamente o desempenho para consultas repetidas.

    Verificação de stopReason

    Verifique stopReason em cada resposta. Dois cenários podem produzir respostas não conformes: recusas (quando o modelo declina por razões de segurança) e limites de token (quando max_tokens é atingido antes da conclusão). Trate ambos os casos no seu código.

    Teste com dados realistas

    Valide seus esquemas contra inputs representativos de produção. Casos extremos em dados reais frequentemente revelam problemas de design de esquema.

    Recursos JSON Schema suportados

    Os seguintes recursos são suportados:

    • Todos os tipos básicos: object, array, string, integer, number, boolean, null
    • enum (strings, números, booleanos ou nulls apenas)
    • const, anyOf, allOf (com limitações)
    • $ref, $def e definitions (apenas referências internas)
    • Formatos de string: date-time, time, date, duration, email, hostname, uri, ipv4, ipv6, uuid
    • Array minItems (apenas valores 0 e 1)

    Não suportados: Esquemas recursivos, referências externas de $ref, restrições numéricas (minimum, maximum, multipleOf), restrições de string (minLength, maxLength), additionalProperties definido como qualquer valor diferente de false.

    Uso restrito de ferramentas para fluxos de trabalho com agentes

    Ao construir aplicações onde modelos chamam ferramentas, configure strict: true na definição da ferramenta para restringir parâmetros de ferramentas a corresponderem exatamente com seu esquema de entrada:

    import boto3
    import json
    
    bedrock_runtime = boto3.client('bedrock-runtime', region_name='us-east-1')
    
    response = bedrock_runtime.converse(
        modelId="us.anthropic.claude-opus-4-5-20251101-v1:0",
        messages=[
            {
                "role": "user",
                "content": [{"text": "What's the weather like in San Francisco?"}]
            }
        ],
        inferenceConfig={"maxTokens": 1024},
        toolConfig={
            "tools": [
                {
                    "toolSpec": {
                        "name": "get_weather",
                        "description": "Get the current weather for a specified location",
                        "strict": True,  # Enable strict mode
                        "inputSchema": {
                            "json": {
                                "type": "object",
                                "properties": {
                                    "location": {
                                        "type": "string",
                                        "description": "The city and state, e.g., San Francisco, CA"
                                    },
                                    "unit": {
                                        "type": "string",
                                        "enum": ["celsius", "fahrenheit"],
                                        "description": "Temperature unit"
                                    }
                                },
                                "required": ["location", "unit"],
                                "additionalProperties": False
                            }
                        }
                    }
                }
            ]
        }
    )
    
    # Tool inputs conform to the schema
    for content_block in response["output"]["message"]["content"]:
        if "toolUse" in content_block:
            tool_input = content_block["toolUse"]["input"]
            print(f"Tool: {content_block['toolUse']['name']}")
            print(f"Input: {json.dumps(tool_input, indent=2)}")

    Com strict: true, as saídas estruturadas garantem que:

    • O campo location é sempre uma string
    • O campo unit é sempre celsius ou fahrenheit
    • Nenhum campo inesperado aparece na entrada

    Aplicações práticas em diversos setores

    Os exemplos e notebooks demonstram casos de uso que atravessam múltiplas indústrias:

    • Serviços financeiros: Extrair dados estruturados de relatórios de earnings, aplicações de crédito e documentos de conformidade. Com saídas estruturadas, todos os campos obrigatórios estão presentes e corretamente tipados para processamento downstream.
    • Healthcare: Analisar notas clínicas em registros estruturados conformes com esquema. Extrair informações de pacientes, diagnósticos e planos de tratamento em JSON validado para integração com sistemas EHR.
    • Ecommerce: Construir pipelines confiáveis de enriquecimento de catálogo de produtos. Extrair especificações, categorias e atributos de descrições de produtos com resultados consistentes e confiáveis.
    • Legal: Analisar contratos e extrair termos-chave, partes, datas e obrigações em formatos estruturados adequados para sistemas de gerenciamento de contratos.
    • Atendimento ao cliente: Construir sistemas inteligentes de roteamento de tickets e resposta, onde intents extraídos, sentimentos e entidades correspondem ao modelo de dados da aplicação.

    Escolhendo a abordagem correta

    Os testes revelaram padrões claros sobre quando usar cada funcionalidade:

    Use JSON Schema output format quando:

    • Você precisa da resposta do modelo em uma estrutura específica
    • Construindo pipelines de extração de dados
    • Gerando respostas prontas para API
    • Criando relatórios ou resumos estruturados

    Use strict tool use quando:

    • Construindo sistemas de agentes que chamam funções externas
    • Implementando fluxos de trabalho multi-etapas com cadeias de ferramentas
    • Exigindo tipos de parâmetro validados para chamadas de função
    • Conectando IA a bancos de dados, APIs ou serviços externos

    Use ambos em conjunto quando:

    • Construindo agentes complexos que precisam de chamadas de ferramenta validadas e respostas finais estruturadas
    • Criando sistemas onde resultados de ferramentas intermediárias alimentam saídas estruturadas
    • Implementando fluxos de trabalho empresariais exigindo conformidade de esquema de ponta a ponta

    Comparação de APIs: Converse versus InvokeModel

    Tanto a Converse API quanto a InvokeModel API suportam saídas estruturadas, com formatos de parâmetro ligeiramente diferentes:

    Aspecto Converse API InvokeModel (Anthropic Claude) InvokeModel (modelos open-weight)
    Localização do esquema outputConfig.textFormat output_config.format response_format
    Flag strict de ferramenta toolSpec.strict tools[].strict tools[].function.strict
    Formato de esquema String JSON em jsonSchema.schema Objeto JSON em schema Objeto JSON em json_schema.schema
    Melhor para Fluxos de trabalho conversacionais Inferência single-turn (Claude) Inferência single-turn (open-weight)

    Nota: A InvokeModel API utiliza nomes de campos de requisição diferentes dependendo do tipo de modelo. Para modelos Anthropic Claude, use output_config.format para saídas JSON schema. Para modelos open-weight, use response_format em seu lugar.

    Escolha a Converse API para conversas multi-turn e a InvokeModel API quando você necessita acesso direto ao modelo com formatos de requisição específicos do provedor.

    Modelos suportados e disponibilidade

    Saídas estruturadas está geralmente disponível em todas as regiões comerciais da AWS para provedores de modelo Amazon Bedrock selecionados:

    • Anthropic
    • DeepSeek
    • Google
    • MiniMax
    • Mistral AI
    • Moonshot AI
    • NVIDIA
    • OpenAI
    • Qwen

    A funcionalidade funciona perfeitamente com:

    • Inferência entre regiões: Use saídas estruturadas entre regiões da AWS sem configuração adicional
    • Inferência em lote: Processe grandes volumes com saídas conformes com esquema
    • Streaming: Transmita respostas estruturadas com ConverseStream ou InvokeModelWithResponseStream

    Conclusão

    A capacidade de saídas estruturadas no Amazon Bedrock reduz significativamente a incerteza da geração de JSON por IA através de respostas validadas e conformes com esquema. Utilizando formato de saída JSON Schema e uso restrito de ferramentas, os desenvolvedores podem construir pipelines confiáveis de extração de dados, fluxos de trabalho robustos com agentes e aplicações de IA prontas para produção—sem lógica personalizada de análise ou validação.

    Seja extraindo dados de documentos, construindo automação inteligente ou criando APIs alimentadas por IA, as saídas estruturadas entregam a confiabilidade que suas aplicações exigem.

    Saídas estruturadas está agora geralmente disponível no Amazon Bedrock. Para usar saídas estruturadas com as APIs Converse, atualize para o AWS SDK mais recente. Para saber mais, consulte a documentação do Amazon Bedrock e explore o notebook de exemplo.

    Fonte

    Structured outputs on Amazon Bedrock: Schema-compliant AI responses (https://aws.amazon.com/blogs/machine-learning/structured-outputs-on-amazon-bedrock-schema-compliant-ai-responses/)

  • Amazon WorkSpaces Secure Browser agora suporta domínios personalizados

    Domínios personalizados no WorkSpaces Secure Browser

    A AWS lançou um novo recurso para o Amazon WorkSpaces Secure Browser que permite configurar domínios personalizados nos portais de acesso. Ao invés de usar a URL padrão fornecida pela plataforma, as organizações agora podem rotear o acesso através de seu próprio domínio, criando uma experiência muito mais alinhada com a identidade corporativa.

    Como funciona a configuração

    O processo é relativamente simples para administradores. Basta adicionar o domínio personalizado diretamente no painel do WorkSpaces Secure Browser e configurar um proxy reverso (como o Amazon CloudFront, por exemplo). Uma vez em operação, o tráfego é direcionado através do proxy reverso até o endpoint do portal. Após a autenticação e autorização bem-sucedida, o WorkSpaces Secure Browser redireciona automaticamente os usuários para o domínio personalizado configurado.

    Autenticação e integração com provedores de identidade

    O serviço oferece flexibilidade quanto à autenticação. É possível usar o AWS Identity Center ou integrar com seu próprio Provedor de Identidade (IdP). O suporte inclui tanto fluxos iniciados pelo IdP quanto pelo provedor de serviço, oferecendo às empresas a liberdade de escolher o modelo de autenticação que melhor se adequa à sua infraestrutura existente.

    Disponibilidade e custo

    Este recurso está disponível sem nenhum custo adicional em 10 regiões AWS: US East (N. Virginia), US West (Oregon), Canada (Central), Europe (Frankfurt, London, Ireland) e Asia Pacific (Tokyo, Mumbai, Sydney, Singapore). O WorkSpaces Secure Browser continua operando com modelo de pagamento conforme o uso.

    Próximos passos

    Para começar a usar domínios personalizados, acesse o console do Amazon WorkSpaces Secure Browser e configure seu domínio no portal. Para detalhes técnicos completos sobre a implementação, consulte a documentação sobre domínios personalizados do WorkSpaces Secure Browser. Você também pode conferir informações sobre o modelo de preço do serviço.

    Fonte

    Amazon WorkSpaces Secure Browser now supports custom domain (https://aws.amazon.com/about-aws/whats-new/2026/02/amazon-workspaces-secure-browser-custom-domains/)

  • Amazon Bedrock AgentCore Browser agora suporta perfis de navegação

    O que são perfis de navegação no Bedrock AgentCore Browser

    A AWS anunciou um novo recurso para o Amazon Bedrock AgentCore Browser: o suporte a perfis de navegação. Essa funcionalidade resolve um desafio importante em automações de grande escala, permitindo que estados de autenticação sejam reutilizados em múltiplas sessões de navegador sem que seja necessário realizar login novamente.

    Para clientes corporativos que precisam executar centenas ou milhares de sessões automatizadas de navegador diariamente, esse ganho é significativo. O tempo de configuração de sessão foi reduzido de minutos para dezenas de segundos, representando uma melhora substancial em eficiência operacional.

    Como funcionam os perfis de navegação

    Os perfis de navegação funcionam através da persistência de dados do navegador. Quando você cria um perfil, ele armazena informações essenciais como cookies e local storage (armazenamento local) de múltiplas sessões.

    O fluxo é simples: você autentica em um website uma única vez e salva a sessão em um perfil de navegação. Quando inicia uma nova sessão utilizando esse perfil salvo, seu estado de autenticação é preservado — você permanece conectado sem necessidade de inserir credenciais novamente. Dessa forma, agentes de automação conseguem executar tarefas em websites autenticados sem intervenção manual de login.

    Flexibilidade e processamento paralelo

    O recurso oferece modos de sessão flexíveis que atendem tanto operações de leitura quanto operações persistentes. Uma vantagem importante é a capacidade de processamento paralelo: múltiplas sessões podem utilizar o mesmo perfil simultaneamente, viabilizando automações complexas e escaláveis.

    Disponibilidade regional

    O suporte a perfis de navegação está disponível em todos os 14 regiões da AWS onde o Amazon Bedrock AgentCore Browser funciona:

    • Regiões US: Virgínia, Ohio e Oregon
    • Regiões Ásia Pacífico: Mumbai, Singapura, Sydney, Tóquio e Seul
    • Regiões Europa: Frankfurt, Irlanda, Londres, Paris e Estocolmo
    • Canadá: região central

    Próximos passos

    Para aprofundar seu conhecimento sobre essa funcionalidade, você pode consultar a documentação sobre perfis de navegação no site oficial da AWS.

    Fonte

    Amazon Bedrock AgentCore Browser now supports browser profiles (https://aws.amazon.com/about-aws/whats-new/2026/02/amazon-bedrock-agentcore-browser-profiles)

  • Gerenciamento de Clusters Amazon SageMaker HyperPod com CLI e SDK

    Simplificação da Computação Distribuída para IA

    O treinamento e implementação de grandes modelos de inteligência artificial exigem capacidades avançadas de computação distribuída. No entanto, gerenciar esses sistemas complexos não deveria ser uma tarefa complicada para cientistas de dados e profissionais de aprendizado de máquina.

    A Amazon SageMaker HyperPod com orquestração Amazon Elastic Kubernetes Service (Amazon EKS) oferece uma abordagem diferente. O pacote de ferramentas — composto por interface de linha de comando (CLI) e kit de desenvolvimento de software (SDK) — permite que usuários gerenciem infraestrutura de cluster e acessem capacidades de treinamento e inferência distribuídos de forma mais intuitiva, abstraindo a complexidade subjacente dos sistemas distribuídos.

    Arquitetura em Camadas para Simplicidade

    A CLI e o SDK seguem uma arquitetura multi-camada compartilhada. Ambas servem como pontos de entrada para o usuário e estão construídas sobre componentes comuns, proporcionando comportamento consistente nas diferentes interfaces.

    Para automação de infraestrutura, o SDK orquestra o gerenciamento do ciclo de vida do cluster através de uma combinação de provisionamento de stacks AWS CloudFormation e interações diretas com APIs da AWS. Cargas de trabalho de treinamento e inferência, além de ambientes de desenvolvimento integrados (IDEs), são expressas como Definições de Recurso Personalizado do Kubernetes (CRDs), que o SDK gerencia através da API do Kubernetes.

    Instalação e Preparação

    Pré-requisitos

    Para utilizar as ferramentas, você precisará de:

    Instalação da CLI HyperPod

    A instalação é direta. Execute o seguinte comando a partir do seu ambiente local:

    pip install sagemaker-hyperpod

    Este comando configura as ferramentas necessárias para interagir com clusters SageMaker HyperPod. Para instalações existentes, certifique-se de que tem a versão mais recente do pacote (SageMaker HyperPod 3.5.0 ou posterior).

    Para verificar se a CLI foi instalada corretamente, execute:

    hyp

    A saída exibirá todas as opções e comandos disponíveis, incluindo instruções de uso. A CLI oferece uma gama completa de comandos para gerenciar o ciclo de vida do HyperPod — desde criação de clusters até criação de endpoints, execução de jobs, monitoramento e exclusão.

    Para informações detalhadas sobre uso da CLI e parâmetros disponíveis, consulte a documentação de referência da CLI.

    Criação e Gerenciamento de Clusters

    Inicializando uma Nova Configuração de Cluster

    A AWS oferece dois caminhos para criar clusters HyperPod: através do console de gerenciamento ou da CLI. O console fornece a experiência mais guiada, enquanto a CLI é ideal para usuários que preferem automação programática.

    Ambas as abordagens utilizam o mesmo modelo CloudFormation subjacente, disponível no repositório GitHub SageMaker HyperPod cluster setup. Para um passo a passo baseado em console, consulte o post sobre a nova experiência de criação de cluster.

    A criação via CLI segue um fluxo baseado em configuração. Primeiro, inicialize uma nova configuração de cluster:

    hyp init cluster-stack

    Isso cria um arquivo config.yaml onde você especifica a configuração do cluster, além de um arquivo README.md com informações sobre o fluxo de trabalho.

    Configuração do Cluster

    O arquivo config.yaml contém variáveis cruciais como:

    resource_name_prefix: hyp-eks-stack
    hyperpod_cluster_name: hyperpod-cluster
    kubernetes_version: 1.31

    O parâmetro resource_name_prefix serve como identificador principal dos recursos criados. Cada implantação deve usar um prefixo único para evitar conflitos.

    Você pode editar a configuração diretamente ou usar comandos da CLI como:

    hyp configure --kubernetes-version 1.33

    Existem duas nuances importantes ao atualizar valores de configuração: underscores (_) em nomes de variáveis no arquivo se tornam hífens (-) nos comandos CLI. Variáveis contendo listas são configuradas como JSON nos comandos CLI.

    Validação e Envio

    Após realizar as alterações desejadas, valide o arquivo de configuração:

    hyp validate

    Se bem-sucedido, o comando confirmará que a configuração é válida. Em seguida, envie o stack de criação para CloudFormation:

    hyp create --region us-east-1

    O comando realiza validação e injeta valores do arquivo config.yaml no modelo. Os arquivos resolvidos são salvos em um subdiretório com timestamp, fornecendo um mecanismo leve de versionamento local. Se bem-sucedido, você receberá uma ID de stack do CloudFormation.

    Monitoramento da Criação

    Para listar stacks CloudFormation existentes:

    hyp list cluster-stack --region us-east-1

    Você pode filtrar por status usando a flag --status. Para visualizar detalhes de um stack específico:

    hyp describe cluster-stack <nome-do-stack> --region us-east-1

    Se algum dos stacks mostrar status como CREATE_FAILED ou ROLLBACK_*, abra a página CloudFormation no console para investigar. Falhas frequentemente relacionam-se a cotas de serviço insuficientes para o cluster, grupos de instâncias ou componentes de rede como VPCs ou gateways NAT. Consulte as quotas do SageMaker HyperPod para saber mais sobre requisitos.

    Conexão ao Cluster

    Após o stack completar sua criação com status CREATE_COMPLETE, configure a CLI e seu ambiente Kubernetes local para interagir com o cluster:

    hyp set-cluster-context --cluster-name <nome-cluster> --region us-east-1

    Este comando atualiza sua configuração Kubernetes local, permitindo usar tanto a CLI HyperPod quanto utilitários como kubectl para gerenciar recursos.

    Modificação de Clusters Existentes

    A CLI oferece capacidade de modificar grupos de instâncias e modo de recuperação de nós através do comando:

    hyp update cluster --cluster-name <nome> --region <região> --instance-groups '[{"instance_count": 2, "instance_group_name": "worker-nodes", "instance_type": "ml.m5.large"}]'

    Todos os campos são necessários para executar o comando de atualização, mesmo que você esteja modificando apenas um deles. A opção --node-recovery permite configurar o comportamento de recuperação de nós (Automática ou Nenhuma). Para mais informações, consulte a documentação sobre recuperação automática de nós.

    Exclusão de Clusters

    Para remover um cluster HyperPod:

    hyp delete cluster-stack <nome-do-stack> --region us-east-1

    Esta ação é irreversível. A CLI solicitará confirmação antes de proceder. Você pode usar a flag --retain-resources para especificar recursos que deseja manter durante o processo de exclusão.

    SDK Python para Controle Programático

    A AWS também inclui um SDK Python para acesso programático às funcionalidades descritas. O SDK Python é utilizado pelos comandos CLI e é instalado quando você instala o pacote sagemaker-hyperpod.

    A CLI é ideal para usuários que preferem uma experiência simplificada e interativa para tarefas comuns como criação de clusters, monitoramento de jobs e implantação de endpoints. É especialmente útil para prototipagem rápida, experimentação e automação de fluxos de trabalho através de scripts ou pipelines CI/CD.

    O SDK, por sua vez, oferece maior controle programático e flexibilidade, sendo a escolha preferida quando você precisa incorporar funcionalidades HyperPod diretamente em sua aplicação, integrar com outros serviços da AWS ou de terceiros, ou construir fluxos de trabalho customizados e complexos.

    O repositório GitHub da CLI SageMaker HyperPod mostra exemplos de como criação e gerenciamento de clusters podem ser implementados usando o SDK Python.

    Próximos Passos

    A CLI e o SDK do SageMaker HyperPod simplificam significativamente a criação e gerenciamento de clusters. Essas ferramentas fornecem valor através de:

    • Gerenciamento simplificado do ciclo de vida — Da configuração inicial às atualizações e limpeza do cluster, as ferramentas alinham-se com como equipes gerenciam ambientes de treinamento e inferência de longa duração
    • Controle declarativo — O SDK expõe o modelo de configuração subjacente, permitindo que equipes codifiquem especificações de cluster, grupos de instâncias e sistemas de armazenamento
    • Observabilidade integrada — Visibilidade dos stacks CloudFormation está disponível sem trocar de ferramentas, suportando iteração suave durante desenvolvimento e operação

    Se você deseja explorar como usar a CLI e o SDK para enviar jobs de treinamento e implantar modelos em seu novo cluster, consulte nosso post complementar sobre treinamento e implantação de modelos no SageMaker HyperPod.

    Fonte

    Manage Amazon SageMaker HyperPod clusters using the HyperPod CLI and SDK (https://aws.amazon.com/blogs/machine-learning/manage-amazon-sagemaker-hyperpod-clusters-using-the-hyperpod-cli-and-sdk/)

  • Avaliando Modelos de IA Generativa com Juiz LLM Baseado em Rubrica da Amazon Nova no SageMaker AI (Parte 2)

    O Juiz LLM Baseado em Rubrica: Transformando a Avaliação de Modelos de IA

    Em um artigo anterior, foi apresentado o recurso de juiz LLM da Amazon Nova no Amazon SageMaker AI, uma ferramenta especializada de avaliação que permite medir sistematicamente o desempenho relativo de sistemas de IA generativa. Agora, o SageMaker AI oferece uma versão aprimorada: um juiz LLM baseado em rubrica, alimentado pela Amazon Nova, que muda fundamentalmente como as equipes de desenvolvimento avaliam seus modelos.

    Diferentemente de abordagens tradicionais que usam as mesmas regras genéricas para todas as tarefas, este juiz gera automaticamente critérios de avaliação específicos para cada prompt individual. Isso permite que desenvolvedores de IA generativa e engenheiros de aprendizado de máquina criem automaticamente critérios precisos e contextualizados para seus modelos, eliminando a necessidade de escrever manualmente regras de avaliação para cada caso de uso.

    Entendendo o Juiz Baseado em Rubrica

    O que é uma Rubrica na Avaliação de IA?

    Uma rubrica é um guia de pontuação usado para avaliar desempenho. Historicamente, avaliar um modelo de IA exigia que humanos escrevessem manualmente um checklist de regras estáticas — por exemplo, “A resposta é educada?” ou “A resposta é concisa?” — que se aplicavam a todas as tarefas.

    O desafio dessa abordagem é que regras genéricas não se adaptam bem a diferentes contextos. Uma tarefa de escrita criativa requer critérios completamente diferentes de uma tarefa de codificação ou resumo de documentos legais. O juiz alimentado pela Amazon Nova resolve esse problema criando um checklist personalizado para cada interação específica.

    Quando um usuário envia um prompt específico — por exemplo, “Resuma este documento médico para um paciente” — o juiz analisa esse prompt e decide dinamicamente que características uma resposta ideal deveria ter. Ele gera automaticamente critérios como: “Usa linguagem simples, sem jargão médico?”, “Captura o diagnóstico corretamente?” e “O tom é empático?”. Em seguida, o juiz avalia a resposta do modelo em relação exatamente a esses critérios relevantes, em vez de aplicar regras genéricas.

    Exemplo Prático de Avaliação

    Considere a pergunta: “Os dinossauros realmente existiram?” Duas respostas muito diferentes poderiam ser avaliadas:

    Uma resposta oferece detalhes extensos com evidências (fósseis, pegadas, ninhos) e explica a distinção entre dinossauros extintos e aves como descendentes vivos. A outra fornece uma resposta mais concisa, cobrindo os pontos principais sem a mesma profundidade.

    O juiz baseado em rubrica analisa o contexto do prompt e gera critérios dinâmicos: precisão factual, clareza da explicação e estrutura apresentação. Ele então compara ambas as respostas contra esses critérios específicos, fornecendo uma justificativa detalhada de por que uma resposta é preferível à outra — neste caso, destacando que a primeira resposta oferece mais evidência e melhor estrutura organizacional.

    Imagem original — fonte: Aws

    Aplicações Empresariais do Juiz Baseado em Rubrica

    A avaliação dinâmica baseada em rubrica resolve desafios críticos em diversos cenários:

    Desenvolvimento de modelos e seleção de checkpoints: Equipes de desenvolvimento integram a avaliação do juiz Nova em pipelines de treinamento para avaliar automaticamente checkpoints. Pontuações por critério revelam quais capacidades melhoraram ou regrediram entre iterações, permitindo decisões informadas sobre ajustes de hiperparâmetros e curadoria de dados.

    Controle de qualidade de dados de treinamento: Equipes usam o juiz para filtrar conjuntos de dados de ajuste fino supervisionado, gerando pontuações baseadas em critérios de relevância e identificando exemplos de baixa qualidade. Para conjuntos de dados de preferência, as margens calculadas entre pares de respostas possibilitam estratégias de aprendizado curricular que filtram exemplos unilaterais demais.

    Análise profunda automatizada e identificação de causa raiz: Organizações que implementam IA generativa em escala podem usar a avaliação do juiz para análise sistemática de milhares de saídas de modelo sem revisão manual. Quando qualidade problemas aparecem, desenvolvedores examinam quais critérios específicos impulsionam as decisões de preferência, identificando fraquezas sistemáticas que informam melhorias direcionadas.

    Como Funciona a Geração Dinâmica de Rubrica

    O juiz baseado em rubrica da Amazon Nova recebe como entrada um trio: prompt, resposta_1 e resposta_2. Ele compara a qualidade das duas respostas e gera um rótulo de preferência, acompanhado de uma justificativa.

    Uma rubrica é um conjunto de critérios ponderados usados para avaliar as duas respostas. Cada critério possui um nome curto, descrição e peso. O treinamento do juiz o capacita a gerar critérios cujos pesos somam 1. A saída estruturada em YAML inclui os critérios gerados, pontuações por critério em escala de 1 a 5, e justificativas detalhadas. O resultado final inclui um de quatro rótulos de preferência: [[A>B]], [[B>A]], [[A=B]] ou [[A=B (ambas ruins)]].

    Cada pontuação de critério vem acompanhada de justificativa fundamentada em características observáveis das respostas, permitindo análise aprofundada e depuração do comportamento do modelo.

    Melhorias em Relação à Versão Anterior

    O juiz baseado em rubrica difere das versões anteriores em como apresenta resultados e quais informações fornece. A versão anterior retornava apenas rótulos de preferência simples. A versão baseada em rubrica gera saída estruturada em YAML contendo:

    • Uma rubrica específica do prompt com critérios e pesos de importância
    • Descrições em linguagem natural para cada critério
    • Pontuação em escala Likert (1–5) ou decisão binária para cada critério
    • Justificativa para cada pontuação de critério
    • Julgamento geral de preferência

    Esse formato de saída mais detalhado facilita casos de uso nuançados. Critérios específicos permitem comparações direcionadas — por exemplo, uma resposta sucinta pode ser mais apropriada para um caso de uso, enquanto uma resposta abrangente é necessária para outro. Justificativas e pontuações explícitas de critérios permitem aos usuários descartar critérios inadequados e recalcular preferências sem consultar o juiz novamente.

    Métricas de Avaliação Explicadas

    O processo de avaliação do juiz utiliza várias métricas importantes para comparação de qualidade:

    Concordância direta: Mede concordância com preferência humana em uma ordem específica de resposta.

    Concordância reconciliada: Porque a consistência posicional é uma propriedade importante de um juiz LLM confiável, os checkpoints são avaliados obtendo julgamentos em ambas as ordens possíveis de apresentação. O juiz recebe crédito apenas se concordar em ambas as direções e corresponder à preferência humana. Por definição, este número sempre será mais baixo que a concordância direta, mas fornece um proxy mais preciso do desempenho real.

    Pontuações ponderadas: Novas métricas que fornecem visão sobre a confiança do julgamento. Uma grande diferença entre pontuações ponderadas indica forte preferência por uma resposta. Essas pontuações são calculadas normalizando pontuações de critério para 0–1, multiplicando pelo peso do critério e somando para gerar pontuações finais. A margem de pontuação mostra a diferença entre pontuações ponderadas.

    Metodologia de Treinamento do Juiz

    O juiz baseado em rubrica da Amazon Nova foi treinado com um pacote de recompensa multi-aspecto otimizando para várias características desejáveis:

    • Precisão de preferência — recompensado quando produz decisões alinhadas com preferências humanas de ouro
    • Consistência posicional — decisões resilientes a inconsistências de posição de resposta candidata
    • Qualidade de justificativa — as justificativas devem alinhar com rubricas geradas, pontuações e julgamento final
    • Calibração de pontuação — pontuações ponderadas calibradas com precisão de decisão (julgamentos de alta confiança devem ser corretos mais frequentemente)

    O processo começou com dados de preferência anotados por humanos, empregando filtragem customizada de dados e geração de dados sintéticos para obter justificativas de preferência alinhadas com rubrica. O pipeline customizado treinou o juiz a gerar critérios apropriados com granularidade precisa para tomada de decisão consistente e robusta.

    Desempenho em Benchmarks

    Testes em conjuntos de dados de avaliação padrão mostram melhorias significativas, particularmente em tarefas exigindo julgamento nuançado:

    • PPE: de 0.61 para 0.64
    • RMBench: de 0.66 para 0.88
    • RewardBench: de 0.88 para 0.90
    • JudgeBench: de 0.51 para 0.76
    • CodeUltraFeedback: de 0.69 para 0.72
    • MMEval: de 0.80 para 0.84

    As melhoria maiores em JudgeBench (49% de aumento) e RMBench refletem melhor tratamento de cenários de avaliação complexos.

    Calibração de Decisões

    Durante treinamento e pós-processamento, a capacidade do juiz de tomar decisões bem calibradas é avaliada. O objetivo é alinhar confiança com precisão: o juiz LLM deveria ser mais preciso ao tomar decisões de alta confiança e permitido ser menos preciso com baixa confiança. Essa metodologia resulta em tomada de decisão consistente em conjuntos de dados dentro e fora da distribuição.

    Também são avaliadas as distribuições de pontuações geradas para diferentes critérios, buscando uma distribuição aproximadamente normal sobre pontuações de escala Likert no conjunto de avaliação. Esse processo de calibração duplo ajuda a identificar melhores checkpoints do juiz.

    Implementação Prática: Avaliando Modelos no SageMaker AI

    A solução apresenta um fluxo completo: começar com um conjunto de dados de teste, gerar respostas de modelos candidatos, e usar o juiz baseado em rubrica para comparação automática.

    Neste exemplo, questões foram amostradas do Stanford Question Answering Dataset (SQuAD), respostas foram geradas de dois modelos Qwen (1.5B e 7B), e os resultados foram salvos em um arquivo JSONL. O arquivo foi enviado para um bucket Amazon S3, e um job de treinamento PyTorch foi lançado para executar a avaliação do juiz usando SageMaker AI com instâncias GPU.

    O resultado inclui rubricas geradas dinamicamente, pontuações por critério, justificativas comparativas, contagens de preferência e medidas de confiança — tudo salvo em S3 para análise posterior.

    Imagem original — fonte: Aws

    Casos de Uso Avançados

    Avaliação de Sistemas RAG

    Em Retrieval Augmented Generation (Geração Aumentada por Recuperação), o principal modo de falha é alucinação. Juízes de preferência tradicionais confundem “a resposta é boa?” com “é fluida?”, “bem formatada?”, “a lógica interna é sólida?”. Uma resposta fluida mas factualmente incorreta frequentemente parece mais credível que uma desajeitada mas precisa.

    Uma avaliação focada em factualidade ajuda a selecionar modelos de resumo porque resultados de recuperação não têm alucinações. O juiz baseado em rubrica permite entender se a preferência baseia-se em critérios como fluência e formatação, ou se é baseada em critérios relevantes como fidedignidade, relevância de contexto. Usuários podem descartar pontuações de critérios irrelevantes e reavaliar julgamentos com base em um subconjunto de critérios que importam para sua aplicação.

    Crítica Criativa

    Em outro extremo, há casos onde criatividade e originalidade são desejáveis sobre fidelidade aos fatos reais ou contexto anterior. Um caso de uso envolvendo geração de histórias curtas ou scripts que sejam originais requer que gerações sejam suficientemente diferentes dos exemplos fornecidos, criativas, originais e sem emprestar diretamente de dados de treinamento existentes.

    Usuários finais podem focar em critérios como originalidade, coerência e engajamento para otimizar julgamentos de preferência adequados para esse caso de uso. Justificativas explícitas para pontuações de critérios fornecem visão sobre que tipo específico de originalidade e criatividade é desejável.

    Fonte

    Evaluate generative AI models with an Amazon Nova rubric-based LLM judge on Amazon SageMaker AI (Part 2) (https://aws.amazon.com/blogs/machine-learning/evaluate-generative-ai-models-with-an-amazon-nova-rubric-based-llm-judge-on-amazon-sagemaker-ai-part-2/)

  • Guia Prático: Embeddings Multimodais do Amazon Nova

    Entendendo o Papel dos Embeddings Multimodais

    Modelos de embedding representam um componente fundamental em diversas aplicações modernas. Desde sistemas de busca semântica e Geração Aumentada por Recuperação (Retrieval-Augmented Generation — RAG) até recomendações personalizadas e análise de conteúdo, os embeddings convertem dados não-estruturados em representações vetoriais que as máquinas conseguem processar e comparar de forma eficiente.

    A escolha do modelo de embedding certo, contudo, exige reflexão cuidadosa. Uma vez que seus dados foram ingeridos e processados, migrar para um modelo diferente significa re-processar todo o corpus, reconstruir índices vetoriais e validar novamente a qualidade das buscas. Por isso, o modelo ideal deve oferecer performance sólida, adaptabilidade aos casos de uso específicos e suporte às modalidades de dados que você precisa hoje e no futuro.

    O Amazon Nova Multimodal Embeddings

    A AWS anunciou o Amazon Nova Multimodal Embeddings, um modelo desenvolvido para gerar embeddings personalizados conforme as necessidades do seu caso de uso. Seja em cenários simples — como buscas em texto ou imagem isoladamente — ou em aplicações complexas que abrangem documentos, vídeos e conteúdo híbrido, o modelo oferece uma base sólida para construir soluções de busca e recuperação de informações.

    Este guia prático orienta como implementar o Amazon Nova Multimodal Embeddings em cenários reais, mostrando como simplificar arquiteturas, otimizar performance por meio da seleção correta de parâmetros e implementar padrões comuns em aplicações de busca de mídia, descoberta de produtos e recuperação inteligente de documentos.

    Casos de Uso Multimodais

    O modelo se adapta a múltiplos cenários de negócio. A tabela abaixo apresenta exemplos típicos de uso com suas respectivas modalidades:

    Recuperação de Vídeos

    • Busca de vídeos curtos: gestão de bibliotecas e acervos de mídia — exemplos: “Crianças abrindo presentes de Natal” ou “Baleia azul saltando a superfície do oceano”
    • Busca de segmentos longos: cinema, entretenimento, mídia de transmissão e vigilância — exemplos: “cena específica em um filme”, “footage específico em noticiário”, “comportamento específico em vigilância”
    • Identificação de conteúdo duplicado: gestão de acervos de mídia — identificação de vídeos similares ou duplicados

    Recuperação de Imagens

    • Busca temática: gerenciamento de acervos e armazenamento — exemplo: “carro vermelho com teto solar na costa”
    • Busca por referência: e-commerce e design — exemplo: “sapatos similares a este” seguido de imagem
    • Busca reversa: gestão de conteúdo — localizar conteúdo similar baseado em imagem carregada

    Recuperação de Documentos

    • Páginas com informação específica: serviços financeiros, marcações de marketing e publicidade
    • Informação abrangente entre páginas: enriquecimento de bases de conhecimento — extração de informações compreensivas de textos, gráficos e tabelas com múltiplas páginas

    Recuperação de Texto

    • Recuperação temática: enriquecimento de bases de conhecimento — exemplo: “próximos passos em procedimentos de desativação de reatores”
    • Análise de similaridade: gestão de conteúdo de mídia — detecção automática de manchetes duplicadas
    • Agrupamento e classificação: finanças e saúde — classificação de sintomas e sumarização
    • Recuperação por associação contextual: finanças, jurídico e seguros — exemplo: “valor máximo de indenização para violações de inspeção corporativa”

    Recuperação de Áudio e Voz

    • Recuperação de áudio: gestão de acervos de mídia — exemplo: “toque de música de Natal”, “efeitos sonoros tranquilos naturais”
    • Busca de segmentos longos: podcasts e gravações de reuniões — exemplo: “apresentador de podcast discutindo neurociência e impacto do sono na saúde cerebral”

    Otimizando Performance para Casos de Uso Específicos

    O Amazon Nova Multimodal Embeddings otimiza seu desempenho através de configurações de parâmetros específicas. O modelo implementa diferentes estratégias de vetorização: modo de sistema de recuperação e modo de tarefa de aprendizado de máquina.

    Modo de Sistema de Recuperação

    Este modo inclui parâmetros como GENERIC_INDEX e várias variações de RETRIEVAL, direcionados para cenários de recuperação de informações. Distingue entre duas fases assimétricas: armazenamento/indexação e consulta/recuperação.

    Fase de armazenamento (todos os tipos): utilize GENERIC_INDEX, otimizado para indexação e armazenamento.

    Fase de consulta:

    • Repositório misto: GENERIC_RETRIEVAL — para busca em conteúdo misto
    • Repositório apenas texto: TEXT_RETRIEVAL — para busca exclusivamente em texto
    • Repositório apenas imagens: IMAGE_RETRIEVAL — para busca em fotos e ilustrações
    • Repositório com documentos em imagem: DOCUMENT_RETRIEVAL — para busca em documentos digitalizados e screenshots de PDF
    • Repositório apenas vídeos: VIDEO_RETRIEVAL — para busca em vídeos
    • Repositório apenas áudio: AUDIO_RETRIEVAL — para busca em áudio

    Modo de Tarefa de Aprendizado de Máquina

    Este modo, incluindo parâmetros CLASSIFICATION e CLUSTERING, se adapta a cenários de aprendizado de máquina. O modelo se ajusta flexivelmente conforme diferentes tipos de requisitos de tarefas downstream.

    • CLASSIFICATION: vetores gerados se adequam melhor à distinção de limites de classificação, facilitando treinamento de classificadores downstream ou classificação direta
    • CLUSTERING: vetores gerados se adequam melhor à formação de centros de cluster, facilitando algoritmos de clustering downstream

    Construindo uma Solução de Busca e Recuperação Multimodal

    O Amazon Nova Multimodal Embeddings foi desenvolvido especificamente para busca e recuperação multimodal, fundação das soluções multimodais de RAG com agentes. Uma solução deste tipo segue uma arquitetura bem definida:

    Inicialmente, conteúdo bruto — incluindo texto, imagens, áudio e vídeo — é transformado em representações vetoriais através do modelo de embedding. Essas representações encapsulam características semânticas. Posteriormente, os vetores são armazenados em um banco de dados vetorial. Consultas de usuários são igualmente convertidas em vetores de consulta no mesmo espaço vetorial. A recuperação dos K itens mais relevantes ocorre por cálculo de similaridade entre o vetor de consulta e os vetores indexados.

    Esta solução de busca e recuperação multimodal pode ser encapsulada como uma ferramenta de Protocol de Contexto de Modelo (Model Context Protocol — MCP), facilitando acesso dentro de uma solução multimodal de RAG com agentes.

    Fluxos de Dados

    A solução divide-se em dois fluxos de dados distintos:

    Ingestão de Dados

    • Gerar embeddings: converte entradas (texto, imagens, áudio, vídeo) em representações vetoriais através do modelo de embeddings
    • Armazenar embeddings: guarda os vetores gerados em banco de dados vetorial ou estrutura de armazenamento para recuperação posterior

    Busca e Recuperação em Tempo de Execução

    • Algoritmo de similaridade: calcula similaridade e distância entre vetores de consulta e vetores indexados, recuperando itens mais próximos — distâncias comuns incluem similaridade de cosseno, produto interno e distância Euclidiana
    • Recuperação dos K principais e mecanismo de votação: seleciona os K vizinhos mais próximos, possivelmente combinando múltiplas estratégias (votação, re-ranking, fusão)
    • Estratégia de integração e recuperação híbrida: combina múltiplos mecanismos de recuperação ou resultados modais, como fusão entre busca por palavras-chave e vetorial

    Implementação em Casos de Uso Reais

    Classificação e Recuperação de Produtos

    Aplicações de e-commerce necessitam classificar automaticamente imagens de produtos e identificar itens similares sem necessidade de marcação manual.

    O fluxo implementado segue:

    • Converter imagens de produtos em embeddings usando Amazon Nova Multimodal Embeddings
    • Armazenar embeddings e rótulos como metadados em banco de dados vetorial
    • Consultar novas imagens de produtos e localizar os K produtos similares principais
    • Usar mecanismo de votação nos resultados recuperados para prever categoria

    Parâmetros-chave de embeddings:

    • embeddingPurpose: GENERIC_INDEX (indexação) e IMAGE_RETRIEVAL (consulta) — otimiza para recuperação de imagem de produto
    • embeddingDimension: 1024 — equilibra precisão e performance
    • detailLevel: STANDARD_IMAGE — apropriado para fotos de produto

    Recuperação Inteligente de Documentos

    Analistas financeiros, equipes jurídicas e pesquisadores necessitam localizar rapidamente informação específica — tabelas, gráficos, cláusulas — em documentos complexos de múltiplas páginas sem análise manual.

    O fluxo segue:

    • Converter cada página de PDF em imagem de alta resolução
    • Gerar embeddings para todas as páginas do documento
    • Armazenar embeddings em banco de dados vetorial
    • Aceitar consultas em linguagem natural e convertê-las em embeddings
    • Recuperar as K páginas mais relevantes baseado em similaridade semântica
    • Retornar páginas contendo tabelas financeiras, gráficos ou conteúdo específico

    Parâmetros-chave de embeddings:

    • embeddingPurpose: GENERIC_INDEX (indexação) e DOCUMENT_RETRIEVAL (consulta) — otimiza para compreensão de conteúdo de documento
    • embeddingDimension: 3072 — precisão máxima para estruturas complexas de documentos
    • detailLevel: DOCUMENT_IMAGE — preserva tabelas, gráficos e layout de texto

    Para documentos baseados em texto que carecem de elementos visuais, recomenda-se extrair o conteúdo textual, aplicar estratégia de chunking e utilizar GENERIC_INDEX para indexação com TEXT_RETRIEVAL para consulta.

    Busca de Clipes de Vídeo

    Aplicações de mídia precisam localizar eficientemente clipes de vídeo específicos em vastas bibliotecas utilizando descrições em linguagem natural. Convertendo vídeos e consultas em embeddings dentro de um espaço semântico unificado, a correspondência por similaridade recupera segmentos de vídeo relevantes.

    O fluxo implementado segue:

    • Gerar embeddings com Amazon Nova Multimodal Embeddings usando a API invoke_model para vídeos curtos ou start_async_invoke para vídeos longos com segmentação
    • Armazenar embeddings em banco de dados vetorial
    • Aceitar consultas em linguagem natural e convertê-las em embeddings
    • Recuperar os K clipes de vídeo principais do banco de dados vetorial para revisão ou edição posterior

    Parâmetros-chave de embeddings:

    • embeddingPurpose: GENERIC_INDEX (indexação) e VIDEO_RETRIEVAL (consulta) — otimiza para indexação e recuperação de vídeo
    • embeddingDimension: 1024 — equilibra precisão e custo
    • embeddingMode: AUDIO_VIDEO_COMBINED — funde conteúdo visual e de áudio

    Fingerprinting de Áudio

    Aplicações de música e sistemas de gestão de direitos autorais necessitam identificar conteúdo de áudio duplicado ou similar, e associar segmentos de áudio a faixas originais para detecção de direitos autorais e reconhecimento de conteúdo.

    O fluxo segue:

    • Converter arquivos de áudio em embeddings usando Amazon Nova Multimodal Embeddings
    • Armazenar embeddings em banco de dados vetorial com gênero e outros metadados
    • Consultar com segmentos de áudio e localizar as K faixas similares principais
    • Comparar scores de similaridade para identificar correspondências de origem e detectar duplicações

    Parâmetros-chave de embeddings:

    • embeddingPurpose: GENERIC_INDEX (indexação) e AUDIO_RETRIEVAL (consulta) — otimiza para fingerprinting e correspondência de áudio
    • embeddingDimension: 1024 — equilibra precisão e performance para similaridade de áudio

    Conclusão

    O Amazon Nova Multimodal Embeddings possibilita trabalhar com tipos diversificados de dados dentro de um espaço semântico unificado. Ao oferecer suporte a texto, imagens, documentos, vídeo e áudio através de parâmetros flexíveis de API otimizados para propósitos específicos, permite construir sistemas de recuperação mais efetivos, pipelines de classificação e aplicações de busca semântica. Independentemente de estar implementando busca cross-modal, inteligência de documentos ou classificação de produtos, o Amazon Nova Multimodal Embeddings oferece a fundação para extrair insights de dados não-estruturados em escala.

    Para iniciar, explore Amazon Nova Multimodal Embeddings: modelo de embedding de ponta para RAG com agentes e busca semântica e exemplos no GitHub para integrar o Amazon Nova Multimodal Embeddings nas suas aplicações hoje mesmo.

    Fonte

    A practical guide to Amazon Nova Multimodal Embeddings (https://aws.amazon.com/blogs/machine-learning/a-practical-guide-to-amazon-nova-multimodal-embeddings/)

  • Instâncias EC2 G6e agora disponíveis na região de Dubai

    Expansão das instâncias G6e para o Oriente Médio

    A AWS anunciou a disponibilidade das instâncias EC2 G6e, equipadas com GPUs NVIDIA L40S Tensor Core, na região do Oriente Médio (EAU) a partir de fevereiro de 2026. Essa expansão geográfica permite que clientes da região tenham acesso a infraestrutura robusta para cargas de trabalho exigentes em termos de processamento gráfico e computação acelerada.

    Capacidades técnicas das instâncias G6e

    As instâncias G6e são projetadas para um amplo conjunto de casos de uso envolvendo aprendizado de máquina e computação espacial. Entre seus principais recursos técnicos estão:

    • Até 8 GPUs NVIDIA L40S Tensor Core, cada uma com 48 GB de memória dedicada
    • Processadores AMD EPYC de terceira geração
    • Até 192 vCPUs (núcleos virtuais de processamento)
    • Até 400 Gbps de largura de banda de rede
    • Até 1.536 TB de memória de sistema
    • Até 7,6 TB de armazenamento local em SSD NVMe

    Aplicações práticas das instâncias G6e

    A AWS posiciona as instâncias G6e como ferramentas versáteis para diversos cenários de processamento intensivo. Os principais casos de uso incluem a implantação de Modelos de Linguagem Grande (LLMs) e modelos de difusão para geração de imagens, vídeos e áudio. Além disso, essas instâncias permitem que clientes criem simulações 3D mais complexas e realistas, bem como gêmeos digitais para cargas de trabalho de computação espacial.

    Disponibilidade global e opções de compra

    As instâncias G6e já estão disponíveis em diversas regiões ao redor do mundo: US East (N. Virgínia e Ohio), US West (Oregon), Ásia Pacífico (Tóquio e Seul), Oriente Médio (EAU), e Europa (Frankfurt, Espanha e Estocolmo).

    Os clientes podem adquirir as instâncias G6e através de diferentes modelos de precificação: Instâncias sob Demanda, Instâncias Reservadas, Instâncias Spot ou como parte de Planos de Economia de Custos (Savings Plans).

    Como começar

    Para iniciiar o uso das instâncias G6e, os clientes podem acessar o Console de Gerenciamento da AWS, utilizar a Interface de Linha de Comando da AWS (CLI) ou integrar via SDKs da AWS. Mais informações técnicas e documentação completa estão disponíveis na página de instâncias G6e.

    Fonte

    Amazon EC2 G6e instances now available in Dubai region (https://aws.amazon.com/about-aws/whats-new/2026/02/amazon-ec2-g6e-instances-dubai-region/)

  • AWS Batch agora oferece ambientes de computação não gerenciados para Amazon EKS

    Uma abordagem mais flexível para orquestração de trabalhos

    A AWS anunciou uma expansão importante em suas capacidades de agendamento de trabalhos: o AWS Batch agora estende seu suporte para ambientes de computação não gerenciados no Amazon EKS. Essa evolução oferece aos usuários uma alternativa estratégica para quem precisa manter controle total sobre a infraestrutura Kubernetes, seja por razões de segurança, conformidade regulatória ou requisitos operacionais específicos.

    O que mudou com os ambientes não gerenciados

    Com essa nova capacidade, torna-se possível aproveitar a orquestração inteligente de trabalhos do AWS Batch enquanto mantém controle total sobre como o Kubernetes está configurado e gerenciado. A diferença fundamental é que, em ambientes não gerenciados, você permanece responsável pela infraestrutura de computação do seu cluster EKS, enquanto o AWS Batch cuida da orquestração e agendamento dos trabalhos.

    Como configurar ambientes não gerenciados

    O processo de configuração é direto. Você pode criar ambientes de computação não gerenciados por meio da API CreateComputeEnvironment ou através do console do AWS Batch. Para isso, é necessário indicar seu cluster EKS existente e especificar um namespace Kubernetes. Após essa configuração inicial, você associa seus nós EKS ao ambiente de computação utilizando rotulagem com kubectl.

    Para quem essa funcionalidade é útil

    O AWS Batch é projetado para apoiar desenvolvedores, cientistas e engenheiros que precisam executar processamento em lote eficiente em qualquer escala. Os casos de uso incluem treinamento de modelos de aprendizado de máquina, simulações complexas e análises de dados em larga escala. Com a adição de suporte para ambientes não gerenciados, esses profissionais ganham mais flexibilidade para adaptar a solução às suas necessidades específicas de infraestrutura.

    Disponibilidade e próximos passos

    Os ambientes de computação não gerenciados no Amazon EKS estão disponíveis a partir de agora em todas as regiões onde AWS Batch opera. Para aprofundar seus conhecimentos sobre implementação e melhores práticas, consulte o guia do usuário do AWS Batch.

    Fonte

    AWS Batch now supports unmanaged compute environments for Amazon EKS (https://aws.amazon.com/about-aws/whats-new/2026/02/aws-batch-on-eks-unmanaged-compute-environments)

  • Saídas Estruturadas Agora Disponíveis no Amazon Bedrock

    Controle Sobre o Formato de Resposta

    A AWS anunciou a disponibilidade de saídas estruturadas no Amazon Bedrock, uma capacidade que garante respostas consistentes e legíveis por máquina dos modelos de fundação que aderem aos esquemas JSON que você define. Em vez de formular prompts esperando que a IA gere JSON válido e adicionar verificações extras na sua aplicação, agora você pode especificar exatamente qual formato deseja e receber respostas que correspondem a ele — tornando fluxos de trabalho em produção mais previsíveis e resilientes.

    Por Que Isso Importa em Produção

    Saídas estruturadas se mostram particularmente úteis em tarefas comuns de produção, como extração de campos específicos e automação de fluxos que utilizam APIs ou ferramentas. Em cenários onde pequenos erros de formatação podem quebrar sistemas a jusante, essa capacidade é um diferencial significativo. Ao garantir conformidade com esquemas predefinidos, a funcionalidade reduz a necessidade de lógica de validação customizada e diminui a sobrecarga operacional através de menos requisições falhadas e retentativas — permitindo que você implante aplicações de IA com confiança, sabendo que receberá respostas previsíveis e estruturadas corretamente.

    Como Utilizar Saídas Estruturadas

    A AWS oferece dois caminhos para trabalhar com saídas estruturadas:

    • Definir um esquema JSON que descreva o formato de resposta desejado
    • Usar definições rigorosas de ferramentas para garantir que as chamadas de ferramentas do modelo correspondam às suas especificações

    Disponibilidade e Modelos Suportados

    Saídas estruturadas está disponível de forma geral para modelos Anthropic Claude 4.5 e modelos de peso aberto selecionados nas APIs Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream em todas as regiões comerciais da AWS onde o Amazon Bedrock é suportado. Para obter mais detalhes sobre quais modelos suportam essa funcionalidade e como implementá-la em seus projetos, consulte a documentação do Amazon Bedrock.

    Fonte

    Structured outputs now available in Amazon Bedrock (https://aws.amazon.com/about-aws/whats-new/2026/02/structured-outputs-available-amazon-bedrock/)