Recuperação Multimodal no Amazon Bedrock Knowledge Bases: Unificando Busca por Texto, Imagem, Áudio e Vídeo

Recuperação Multimodal para Aplicações de Inteligência Artificial

A AWS anunciou a disponibilidade geral de recuperação multimodal para Amazon Bedrock Knowledge Bases. Esta capacidade adiciona suporte nativo para conteúdo em vídeo e áudio, complementando texto e imagens. Com isso, organizações podem construir aplicações de Geração Aumentada por Recuperação (RAG — Retrieval Augmented Generation) que buscam e recuperam informações em múltiplos formatos dentro de um serviço totalmente gerenciado.

Empresas modernas armazenam informações valiosas em diversos formatos. Documentação de produtos inclui diagramas e capturas de tela, materiais de treinamento contêm vídeos instrucionais, e insights de clientes são capturados em gravações de reuniões. Até agora, desenvolver aplicações de inteligência artificial capazes de buscar efetivamente nestes diferentes tipos de conteúdo exigia infraestrutura customizada complexa e esforço significativo de engenharia.

O Desafio Anterior e a Solução Multimodal

Anteriormente, o Bedrock Knowledge Bases utilizava modelos de embedding baseados em texto para recuperação. Embora suportasse documentos de texto e imagens, estas últimas precisavam ser processadas usando modelos de fundação ou Bedrock Data Automation para gerar descrições textuais — uma abordagem centrada em texto que perdia contexto visual e impedia capacidades de busca visual. Vídeo e áudio exigiam pipelines customizados de pré-processamento externo.

Agora, com embeddings multimodais, o recuperador suporta nativamente texto, imagens, áudio e vídeo dentro de um único modelo de embedding. Com a recuperação multimodal no Bedrock Knowledge Bases, você pode ingerir, indexar e recuperar informações de texto, imagens, vídeo e áudio usando um fluxo de trabalho unificado. O conteúdo é codificado usando embeddings multimodais que preservam contexto visual e de áudio, permitindo que suas aplicações encontrem informações relevantes entre tipos de mídia. Você pode até fazer buscas usando uma imagem para encontrar conteúdo visualmente similar ou localizar cenas específicas em vídeos.

Dois Caminhos para Processamento Multimodal

Amazon Nova Multimodal Embeddings

Amazon Nova Multimodal Embeddings é o primeiro modelo de embedding unificado que codifica texto, documentos, imagens, vídeo e áudio em um único espaço vetorial compartilhado. O conteúdo é processado nativamente sem conversão para texto. O modelo suporta até 8.172 tokens para texto e 30 segundos para segmentos de vídeo/áudio, trabalha com mais de 200 idiomas e oferece quatro dimensões de embedding (sendo 3.072 a padrão, com opções de 1.024, 384 e 256) para balancear precisão e eficiência.

O Bedrock Knowledge Bases segmenta vídeo e áudio automaticamente em chunks configuráveis (5-30 segundos), com cada segmento sendo incorporado independentemente. Para conteúdo em vídeo, os embeddings Nova capturam elementos visuais — cenas, objetos, movimento e ações — assim como características de áudio como música, sons e ruído ambiente. Para vídeos onde o diálogo falado é importante, você pode usar Bedrock Data Automation para extrair transcrições junto com descrições visuais. Para arquivos de áudio isolados, Nova processa características acústicas como música, sons ambientais e padrões de áudio.

A capacidade cross-modal habilita casos de uso como descrever uma cena visual em texto para recuperar vídeos correspondentes, fazer upload de uma imagem de referência para encontrar produtos similares, ou localizar ações específicas em gravações — tudo sem descrições textuais pré-existentes. Este formato é ideal para catálogos de produtos, busca visual, vídeos de manufatura, filmagens esportivas, câmeras de segurança e cenários onde o conteúdo visual direciona o caso de uso.

Amazon Bedrock Data Automation

Bedrock Data Automation adota uma abordagem diferente, convertendo conteúdo multimídia em representações textuais ricas antes da incorporação. Para imagens, gera descrições detalhadas incluindo objetos, cenas, texto dentro de imagens e relações espaciais. Para vídeo, produz resumos cena a cena, identifica elementos visuais-chave e extrai texto na tela. Para áudio e vídeo com fala, Bedrock Data Automation fornece transcrições precisas com timestamps e identificação do locutor, junto com resumos de segmentos que capturam pontos-chave discutidos.

Uma vez convertido em texto, esse conteúdo é segmentado e incorporado usando modelos de embedding de texto como Amazon Titan Text Embeddings ou Amazon Nova Multimodal Embeddings. Esta abordagem centrada em texto possibilita respostas altamente precisas a perguntas sobre conteúdo falado — quando usuários perguntam sobre declarações específicas feitas em uma reunião ou tópicos discutidos em um podcast, o sistema busca em transcrições precisas em vez de embeddings de áudio. Isto a torna particularmente valiosa para cenários de conformidade onde você precisa de citações exatas e registros verbatim para trilhas de auditoria, análise de reuniões, mineração de chamadas de suporte ao cliente e casos de uso onde você precisa recuperar e verificar informações faladas específicas. Este formato é melhor para reuniões, webinars, entrevistas, podcasts, vídeos de treinamento, chamadas de suporte e cenários que exigem recuperação precisa de declarações ou discussões específicas.

Caso de Uso: Busca Visual de Produtos em E-commerce

Bases de conhecimento multimodal podem ser usadas em aplicações que variam desde experiências de cliente aprimoradas e treinamento de colaboradores até operações de manutenção e análise legal. A busca tradicional em e-commerce depende de consultas em texto, exigindo que clientes articulem o que estão procurando com as palavras-chave corretas. Isto falha quando viram um produto em outro lugar, têm uma foto de algo que gostam ou querem encontrar itens similares aos que aparecem em um vídeo.

Agora, clientes podem buscar seu catálogo de produtos usando descrições textuais, fazer upload de uma imagem de um item que fotografaram ou referenciar uma cena de um vídeo para encontrar produtos correspondentes. O sistema recupera itens visualmente similares comparando a representação incorporada da consulta — seja texto, imagem ou vídeo — contra os embeddings multimodais do seu inventário de produtos.

Para este cenário, Amazon Nova Multimodal Embeddings é a escolha ideal. A descoberta de produtos é fundamentalmente visual — clientes se preocupam com cores, estilos, formas e detalhes visuais. Ao codificar suas imagens e vídeos de produtos no espaço vetorial unificado de Nova, o sistema compara com base em similaridade visual sem depender de descrições em texto que possam perder características visuais sutis.

Configurando uma Base de Conhecimento Multimodal

Pré-requisitos

Antes de começar, certifique-se de que você possui:

Uma Conta AWS com acesso apropriado aos serviços
Uma função AWS Identity and Access Management (IAM) com as permissões apropriadas para acessar Amazon Bedrock e Amazon Simple Storage Service (Amazon S3)

Passo 1: Criar a Base de Conhecimento

Comece abrindo o console Amazon Bedrock e criando uma nova base de conhecimento. Forneça um nome descritivo para sua base de conhecimento e selecione seu tipo de fonte de dados — neste caso, Amazon S3 onde suas imagens e vídeos de produtos estão armazenados.

Passo 2: Conectar a Fonte de Dados

Conecte seu bucket S3 contendo imagens e vídeos de produtos. Para a estratégia de análise, selecione o analisador padrão do Amazon Bedrock. Como você está usando Amazon Nova Multimodal Embeddings, as imagens e vídeos são processados nativamente e incorporados diretamente no espaço vetorial unificado, preservando suas características visuais sem conversão para texto.

Passo 3: Configurar Armazenamento e Processamento

Selecione Amazon Nova Multimodal Embeddings como seu modelo de embedding. Este modelo de embedding unificado codifica tanto suas imagens de produtos quanto as consultas de clientes no mesmo espaço vetorial, habilitando recuperação cross-modal onde consultas em texto podem recuperar imagens e consultas com imagens podem encontrar produtos visualmente similares. Para este exemplo, use Amazon S3 Vectors como armazenamento vetorial (você poderia opcionalmente usar outros armazenamentos disponíveis), que fornece armazenamento com custo-efetivo e durável otimizado para conjuntos de dados vetoriais em larga escala mantendo desempenho de consulta em sub-segundo. Você também precisa configurar o destino de armazenamento multimodal especificando um local S3.

Passo 4: Revisar e Criar

Revise suas configurações incluindo detalhes da base de conhecimento, configuração da fonte de dados e seleção do modelo de embedding — usando Amazon Nova Multimodal Embeddings v1 com 3.072 dimensões vetoriais (dimensões maiores fornecem representações mais ricas; você pode usar dimensões menores como 1.024, 384 ou 256 para otimizar armazenamento e custo) — e configuração do armazenamento vetorial. Uma vez que tudo está correto, crie sua base de conhecimento.

Passo 5: Iniciar Ingestão de Dados

Uma vez criada, inicie o processo de sincronização para ingerir seu catálogo de produtos. A base de conhecimento processa cada imagem e vídeo, gera embeddings e os armazena no banco de dados vetorial gerenciado. Monitore o status da sincronização para confirmar que os documentos foram indexados com sucesso.

Passo 6: Testar com Consultas em Texto

Com sua base de conhecimento pronta, teste-a usando uma consulta em texto no console. Busque por descrições de produtos como “Uma capa de telefone metálica” para verificar que a recuperação baseada em texto funciona corretamente em seu catálogo.

Passo 7: Testar Busca Visual

Agora vem a parte poderosa — busca visual. Faça upload de uma imagem de referência de um produto que você quer encontrar. Por exemplo, imagine que você viu uma capa de telefone em outro site e quer encontrar itens similares em seu catálogo. Simplesmente faça upload da imagem sem prompt de texto adicional. A base de conhecimento multimodal extrai características visuais de sua imagem carregada e recupera produtos visualmente similares de seu catálogo. Como você pode ver nos resultados, o sistema retorna capas de telefone com padrões de design, cores ou características visuais similares. Note os metadados associados a cada segmento. Os campos de timestamp indicam a localização temporal exata deste segmento dentro do vídeo de origem. Ao construir aplicações programaticamente, você pode usar esses timestamps para extrair e exibir o segmento de vídeo específico que correspondeu à consulta, habilitando recursos como “pule para o momento relevante” ou geração de clipes diretamente de seus vídeos de origem.

Passo 8: Testar com Bedrock Data Automation

Agora veja como seria se você tivesse configurado análise Bedrock Data Automation durante a configuração da fonte de dados. Note a seção de transcrição nos detalhes da origem. Para cada segmento de vídeo recuperado, Bedrock Data Automation gera automaticamente uma descrição textual detalhada — neste exemplo, descrevendo o acabamento rose gold metálico do smartphone, iluminação de estúdio e características visuais. Você obtém tanto a correspondência de similaridades visuais dos embeddings multimodais quanto descrições de produtos detalhadas que podem responder perguntas específicas sobre características, cores, materiais e outros atributos visíveis no vídeo.

Limpeza de Recursos

Para limpar seus recursos, siga estes passos começando com a exclusão da base de conhecimento:

No console Amazon Bedrock, escolha Knowledge Bases
Selecione sua Base de Conhecimento e anote tanto o nome da função de serviço IAM quanto o ARN do índice S3 Vector
Escolha Deletar e confirme

Para deletar S3 Vector como armazenamento vetorial, use os seguintes comandos AWS Command Line Interface (AWS CLI):

aws s3vectors delete-index --vector-bucket-name YOUR_VECTOR_BUCKET_NAME --index-name YOUR_INDEX_NAME --region YOUR_REGION
aws s3vectors delete-vector-bucket --vector-bucket-name YOUR_VECTOR_BUCKET_NAME --region YOUR_REGION

No console IAM, encontre a função anotada anteriormente
Selecione e delete a função
No console Amazon S3, encontre seu bucket S3
Selecione e delete os arquivos que você carregou para este tutorial

Próximas Etapas

Comece com recuperação multimodal hoje. Explore a documentação e revise a documentação de Amazon Bedrock Knowledge Bases e o Amazon Nova User Guide para detalhes técnicos adicionais.

Experimente com exemplos de código no repositório de amostras do Amazon Bedrock para notebooks práticos demonstrando recuperação multimodal.

Leia o anúncio de Amazon Nova Multimodal Embeddings para insights técnicos mais profundos. O repositório GitHub fornece um notebook guiado que você pode seguir para implementar este exemplo em sua conta.

Conclusão

A recuperação multimodal para Amazon Bedrock Knowledge Bases remove a complexidade de construir aplicações RAG que abrangem texto, imagens, vídeo e áudio. Com suporte nativo para conteúdo em vídeo e áudio, você pode agora construir bases de conhecimento abrangentes que desbloqueiam insights de seus dados corporativos — não apenas documentos de texto.

A escolha entre Amazon Nova Multimodal Embeddings e Bedrock Data Automation oferece flexibilidade para otimizar seu caso de uso específico. O espaço vetorial unificado de Nova habilita recuperação cross-modal para casos de uso orientados visualmente, enquanto a abordagem centrada em texto de Bedrock Data Automation oferece recuperação precisa baseada em transcrição para conteúdo com fala intensa. Ambas as abordagens se integram perfeitamente no mesmo fluxo de trabalho totalmente gerenciado, eliminando a necessidade por pipelines de pré-processamento customizados.

Fonte

Introducing multimodal retrieval for Amazon Bedrock Knowledge Bases (https://aws.amazon.com/blogs/machine-learning/introducing-multimodal-retrieval-for-amazon-bedrock-knowledge-bases/)