Busca Semântica em Vídeos com Embeddings Multimodais do Amazon Nova

Por que a busca semântica em vídeos importa

A demanda por experiências centradas em vídeo está transformando a forma como as organizações entregam conteúdo. Usuários esperam encontrar rapidamente momentos específicos dentro de arquivos de vídeo, e as indústrias de mídia estão enfrentando desafios reais para atender essa expectativa.

Transmissoras de esportes precisam identificar o exato instante em que um jogador marca um gol para disponibilizar o destaque aos fãs instantaneamente. Estúdios de cinema buscam cada cena que apresenta um ator específico ao longo de milhares de horas de arquivo para criar trailers personalizados. Agências de notícias recuperam vídeos por estado emocional, localização ou tipo de evento para publicar reportagens antes dos concorrentes. O denominador comum é claro: entregar conteúdo de vídeo aos usuários rapidamente, capturar o momento certo e monetizar a experiência.

O desafio fundamental reside na complexidade inerente ao vídeo. Diferentemente de texto ou imagens isoladas, um arquivo de vídeo combina múltiplos sinais não estruturados simultaneamente: a cena visual que se desenrola, o áudio ambiente, efeitos sonoros, diálogos, informações temporais e metadados estruturados descrevendo o ativo.

Uma busca por “perseguição de carro com sirenes” envolve tanto um evento visual quanto um evento de áudio. Uma busca por um atleta específico pelo nome pode retornar alguém que aparece de forma proeminente na tela, mas nunca é mencionado na fala. Converter vídeo em texto inevitavelmente perde informações críticas: contexto temporal desaparece e erros de transcrição emergem de problemas de qualidade visual e áudio.

A abordagem inovadora: Embeddings Multimodais do Amazon Nova

A AWS apresentou os Embeddings Multimodais do Amazon Nova, um modelo de embedding unificado que processa nativamente texto, documentos, imagens, vídeo e áudio em um espaço vetorial semântico compartilhado. O modelo oferece precisão de recuperação líder da indústria com eficiência de custo notável.

Diferentemente de abordagens tradicionais que mapeiam todos os sinais de vídeo em texto antes da busca, esse modelo multimodal processa todos os sinais simultaneamente sem perder detalhes essenciais. A solução construída sobre o Amazon Bedrock demonstra como integrar embeddings multimodais com uma arquitetura híbrida inteligente que funde sinais semânticos e lexicais em todos os tipos de mídia do vídeo.

Arquitetura da solução

A solução foi desenvolvida em duas fases distintas: um pipeline de ingestão que converte vídeo em embeddings pesquisáveis, e um pipeline de busca que roteia consultas de usuários inteligentemente entre essas representações.

Pipeline de ingestão

O fluxo de ingestão segue seis etapas principais. Primeiro, vídeos enviados via navegador são armazenados no Amazon DynamoDB para rastreamento de status enquanto um pipeline do AWS Step Functions é iniciado através de um orquestrador em AWS Lambda.

Na etapa de segmentação, o AWS Fargate utiliza detecção de cenas com FFmpeg para dividir o vídeo em segmentos semanticamente coerentes. Três branches paralelos então processam cada segmento: embeddings visuais e de áudio são gerados e armazenados, Amazon Transcribe converte fala em texto, e Amazon Rekognition identifica celebridades.

O Amazon Nova 2 Lite sintetiza legendas em nível de segmento e rótulos de gênero. Uma função Lambda monta todos os metadados e recupera os embeddings do Amazon S3 Vectors. Os documentos completos de segmento, com metadados e vetores, são então indexados em massa no Amazon OpenSearch Service.

Pipeline de consulta

Usuários autenticam através do Amazon Cognito e acessam a interface pela Amazon CloudFront. O Amazon API Gateway roteia requisições para uma função Lambda de busca, que executa duas operações paralelas.

A análise de intenção utiliza Amazon Bedrock com Anthropic Claude Haiku para atribuir pesos de relevância entre os canais visual, áudio, transcrição e metadados. Simultaneamente, os Embeddings Multimodais do Amazon Nova processam a consulta três vezes para correspondência de similaridade visual, áudio e transcrição.

Decisões de design críticas

Segmentação semântica para continuidade de contexto

Antes de gerar qualquer embedding, o vídeo deve ser dividido em unidades pesquisáveis, e as fronteiras traçadas impactam diretamente a precisão da busca. Cada segmento se torna a unidade atômica de recuperação.

Segmentos muito curtos perdem o contexto circundante que confere significado a um momento. Segmentos muito longos fundem múltiplos tópicos ou cenas, diluindo a relevância. Blocos de comprimento fixo são diretos de produzir, mas ignoram a estrutura natural do conteúdo—uma transição de cena no meio de um segmento divide uma ideia visual entre dois chunks.

A solução usa detecção de cenas do FFmpeg para identificar onde o conteúdo visual realmente muda. O framework FFmpeg é amplamente utilizado para processamento de vídeo, conversão de formatos e análise. A função de detecção retorna timestamps marcando limites naturais de cena. O algoritmo de segmentação então alinha cada corte ao limite de cena mais próximo dentro de uma janela aceitável, buscando aproximadamente dez segundos com mínimo de cinco e máximo de quinze segundos.

O resultado são segmentos que soam naturais—oito a doze segundos cada—alinhados a transições visuais reais em vez de divisões arbitrárias. Essa abordagem simples baseada em cenas garante que limites de segmento correspondam a transições visuais naturais.

Embeddings separados para sinais visuais, de áudio e transcrição

Com segmentos definidos, a escolha do modelo de embedding é onde a maior lacuna de qualidade emerge. A abordagem dominante atualmente fundamenta todos os sinais de vídeo em texto antes de gerar embeddings. Enquanto isso funciona para conteúdo repleto de diálogos, converter vídeo em texto inevitavelmente perde informações críticas.

Os Embeddings Multimodais do Amazon Nova mudam isso fundamentalmente porque é um modelo nativo de vídeo que pode gerar embeddings em dois modos. O modo combinado funde sinais visual e de áudio em uma representação unificada, capturando os sinais mais importantes juntos. Essa abordagem beneficia custo de armazenamento e latência de recuperação ao exigir apenas um embedding por segmento.

Alternativamente, o modo AUDIO_VIDEO_SEPARATE gera embeddings visuais e de áudio distintos. Essa abordagem oferece máxima representação em embeddings específicos da modalidade e oferece melhor controle sobre quando buscar conteúdo visual versus conteúdo de áudio. A implementação adicionou até um terceiro embedding de fala derivado do Amazon Transcribe.

Os três embeddings cobrem o espaço completo de sinais de um segmento de vídeo. O embedding visual captura o que a câmera vê: objetos, cenas, ações, cores e composição espacial. O embedding de áudio captura o que o microfone ouve: música, efeitos sonoros, ruído ambiente e textura acústica. O embedding de transcrição captura o que as pessoas dizem, representando o significado semântico da fala e narração.

Busca híbrida combinando metadados e embeddings

Mesmo com três embeddings independentes cobrindo conteúdo visual, áudio e falado, existe uma classe de consultas que o sistema não pode responder bem. Embeddings são projetados para capturar similaridade semântica. Eles excelem em encontrar um “momento de multidão tensa” ou um “pôr do sol sobre a água” porque são conceitos com significado visual e áudio rico.

Mas quando um usuário busca por um nome específico, número de modelo de produto, geolocalização ou data particular, embeddings provavelmente falharão. Essas são entidades discretas com poucos sinais semânticos próprios. Aqui entra a busca híbrida. Em vez de confiar apenas em embeddings, o sistema executa dois caminhos de recuperação paralelos: um caminho semântico que corresponde aos embeddings visuais, de áudio e transcrição para capturar similaridade conceitual, e um caminho lexical que realiza correspondência exata de palavra-chave e entidade contra metadados estruturados.

A quantidade de metadados necessária depende do tipo de conteúdo, organização e caso de uso. Para a implementação, foram selecionadas categorias representando tipos comuns em mídia e entretenimento: título de vídeo e datetime (metadados técnicos), legendas de segmento, gênero e reconhecimento de celebridades (metadados contextuais). As legendas são geradas a partir do vídeo e transcrição de cada segmento. O gênero é previsto a partir da transcrição completa de vídeo. Identificação de celebridades é tratada pelo Amazon Rekognition.

Roteamento de consulta consciente de intenção

Com três embeddings e metadados, há quatro dimensões pesquisáveis. Mas como saber qual usar para uma consulta fornecida? A intenção é tudo. Para resolver isso, foi construído um roteador de análise de intenção que usa o modelo Haiku para analisar cada consulta e atribuir peso a cada canal de modalidade: visual, áudio, transcrição e metadados.

O modelo Haiku recebe uma consulta e retorna um objeto JSON com pesos que somam um, junto com um breve rastreamento explicando a atribuição. Os pesos controlam diretamente quais sub-consultas executam. Qualquer modalidade abaixo do limiar de cinco por cento é completamente ignorada, eliminando chamadas de API de embedding desnecessárias e reduzindo latência sem sacrificar precisão.

Os canais restantes executam em paralelo, cada um buscando seu próprio índice independentemente. Resultados de todos os canais ativos são então pontuados usando uma média aritmética ponderada. As pontuações BM25 (uma medida de relevância lexical baseada em frequência de termo e comprimento de documento) e pontuações de similaridade de cosseno (uma medida geométrica de quão proximamente dois vetores de embedding apontam na mesma direção) existem em escalas muito diferentes. Para resolver isso, cada pontuação de sub-consulta é primeiro normalizada para um intervalo de zero a um, depois combinada usando os pesos de intenção do roteador.

Estratégia de armazenamento para vetores e metadados

A decisão final de design é onde e como armazenar tudo isso. Cada segmento de vídeo produz até três embeddings e um conjunto de campos de metadados, e como eles são armazenados determina tanto o desempenho de busca quanto o custo em escala.

A solução divide isso entre dois serviços com papéis complementares: Amazon S3 Vectors para armazenamento de vetores e Amazon OpenSearch Service para busca híbrida. O S3 Vectors armazena três índices de vetores por projeto, um para cada tipo de embedding: visual, áudio e transcrição. O OpenSearch contém um índice por projeto, onde cada documento representa um único segmento de vídeo contendo campos de texto para busca BM25 e campos de vetor para busca de k-vizinhos mais próximos.

O S3 Vectors foi escolhido pelos benefícios de custo-performance. O Amazon S3 Vectors reduz o custo de armazenamento e consulta de vetores em até noventa por cento comparado a soluções especializadas alternativas. Se latência de busca não é crítica para o caso de uso, S3 Vectors é uma escolha padrão forte. Se a menor latência possível é necessária, recomenda-se usar vetores em memória com o mecanismo Hierarchical Navigable Small World (HNSW) do OpenSearch.

Vale ressaltar que alguns casos de uso requerem busca dentro de segmentos de vídeo mais longos e semanticamente densos, como uma entrevista completa, uma cena documentária de vários minutos ou uma demonstração de produto estendida. A maioria dos modelos de embedding multimodal, incluindo os Embeddings Multimodais do Amazon Nova, tem duração máxima de entrada de trinta segundos. O suporte de vetor aninhado no OpenSearch resolve isso permitindo que um único documento contenha múltiplos embeddings de sub-segmentos.

Resultados de desempenho

Para validar as decisões de design, a abordagem híbrida otimizada foi comparada com a linha de base do modo AUDIO_VIDEO_COMBINED dos Embeddings Multimodais do Amazon Nova. A comparação usou dez vídeos long-form internos (cinco a vinte minutos) avaliados em vinte consultas abrangendo buscas focadas em visual, áudio, transcrição e metadados.

A linha de base usa um único vetor unificado por segmento de dez segundos com um índice e uma consulta de k-vizinhos mais próximos. A abordagem otimizada gera embeddings visual, áudio e transcrição separados, enriquece segmentos com metadados estruturados e aplica roteamento consciente de intenção que pondera dinamicamente canais de modalidade.

Os resultados mostram melhorias substanciais em todas as métricas de recuperação. A busca híbrida atingiu Recall@5 e Recall@10 acima de noventa por cento versus cinquenta e um e sessenta e quatro por cento para a linha de base—um ganho de cerca de quarenta pontos percentuais em precisão de cobertura. Mean Reciprocal Rank saltou de quarenta e oito para noventa por cento, e NDCG@10 subiu de cinquenta e quatro para oitenta e oito por cento. Esses ganhos de trinta a quarenta pontos percentuais validam as decisões arquiteturais centrais: segmentação semântica preserva continuidade de conteúdo, embeddings separados oferecem controle preciso de busca, enriquecimento de metadados captura entidades factuais, e roteamento consciente de intenção garante que os sinais certos direcionem cada consulta.

Implementação prática

Uma implementação de referência completa está disponível no GitHub, permitindo seguir o passo a passo e ver como cada decisão contribui para busca precisa e escalável entre todos os tipos de sinais.

Para evitar incurrer em futuras cobranças, os recursos usados na solução podem ser deletados removendo a stack do AWS CloudFormation. Comandos detalhados estão disponíveis no repositório GitHub.

Próximos passos e otimizações

Mais otimizações podem ser realizadas para afinar ainda mais a precisão de busca, incluindo personalização de modelo para a camada de roteamento de intenção. Recomenda-se ler a Parte 2 para aprofundar essas técnicas.

Para uma implementação pronta para produção desta técnica de busca semântica de vídeo e gerenciamento de metadados em escala, consulte a Orientação para um Media Lake na AWS.

Considerações finais

A solução de busca semântica em vídeo construída sobre os Embeddings Multimodais do Amazon Nova demonstra como transformar um conjunto fragmentado de sinais em uma experiência de busca unificada e precisa que compreende vídeo. Ao manter contexto temporal, processar embeddings separados para cada modalidade, enriquecer com metadados estruturados e aplicar roteamento inteligente baseado em intenção, as organizações podem escalar de forma eficiente entre arquivos de vídeo massivos mantendo precisão de recuperação.

Essa abordagem abre possibilidades para transmissoras de esportes, estúdios de cinema, agências de notícias e qualquer organização que necessite encontrar rapidamente momentos específicos dentro de conteúdo de vídeo—capturando o momento, entregando aos usuários e monetizando a experiência.

Fonte

Power video semantic search with Amazon Nova Multimodal Embeddings (https://aws.amazon.com/blogs/machine-learning/power-video-semantic-search-with-amazon-nova-multimodal-embeddings/)