Descoberta de Ativos Criativos em Escala com Amazon Nova Multimodal Embeddings

O Desafio da Descoberta de Ativos Criativos em Larga Escala

Empresas de games enfrentam um desafio sem precedentes ao gerenciar bibliotecas massivas de ativos criativos. Organizações modernas produzem milhares de anúncios em vídeo para campanhas de testes A/B, com algumas mantendo acervos com mais de 100 mil ativos audiovisuais que crescem por milhares de arquivos mensalmente. Para campanhas de aquisição de usuários, encontrar o ativo criativo correto pode representar a diferença entre um lançamento bem-sucedido e um fracasso custoso.

Métodos tradicionais para organizar, armazenar e buscar ativos criativos não conseguem acompanhar as necessidades dinâmicas das equipes criativas. Historicamente, esses ativos eram marcados manualmente para permitir buscas por palavras-chave e organizados em hierarquias de pastas, sendo pesquisados manualmente conforme necessário. Essa abordagem apresenta limitações significativas: sistemas de busca por palavras-chave exigem marcação manual que é tanto trabalhosa quanto inconsistente, enquanto soluções baseadas em modelos de linguagem grande (LLM) podem oferecer capacidades multimodais poderosas, mas não conseguem escalar para atender às necessidades de equipes criativas que realizam buscas variadas e em tempo real em acervos enormes.

A Transformação com Amazon Nova Multimodal Embeddings

O núcleo do desafio reside na busca semântica para descoberta de ativos criativos. O sistema precisa oferecer suporte a requisições de busca imprevisíveis que não podem ser pré-organizadas com prompts fixos ou tags predefinidas. Quando profissionais criativos procuram por expressões como “personagem beliscado pela mão” ou “dedo tocando carta no jogo”, o sistema deve compreender não apenas as palavras-chave, mas o significado semântico através de diferentes tipos de mídia.

Amazon Nova Multimodal Embeddings representa uma transformação neste cenário. Trata-se de um modelo de embedding multimodal de ponta para aplicações de Recuperação Aumentada por Geração (RAG) e busca semântica, disponível em Amazon Bedrock. A característica mais importante é que o modelo gera embeddings diretamente de ativos de vídeo sem necessidade de etapas intermediárias de conversão ou marcação manual.

A geração de embeddings de vídeo permite compreensão semântica genuína do conteúdo. O modelo consegue analisar cenas visuais, ações, objetos e contexto dentro dos vídeos para criar representações semânticas ricas. Quando você busca por “personagem beliscado pela mão”, o modelo compreende a ação específica, elementos visuais e contexto descritos — não apenas correspondências de palavras-chave. Essa capacidade semântica evita as limitações fundamentais dos sistemas de busca tradicionais, permitindo que equipes criativas encontrem conteúdo de vídeo relevante usando descrições em linguagem natural que seria impossível marcar ou organizar manualmente com abordagens convencionais.

Arquitetura e Capacidades Principais

Características do Nova Multimodal Embeddings

Nova Multimodal Embeddings é o primeiro modelo de embedding unificado que oferece suporte a texto, documentos, imagens, vídeo e áudio através de um único modelo para ativar recuperação entre modalidades com precisão líder da indústria. O modelo oferece capacidades-chave significativas:

  • Arquitetura de espaço vetorial unificado: Ao contrário de sistemas tradicionais baseados em tags ou pipelines de conversão multimodal-para-texto que requerem mapeamentos complexos entre diferentes espaços vetoriais, o Nova Multimodal Embeddings gera embeddings que existem no mesmo espaço semântico independentemente da modalidade de entrada. Isso significa que uma descrição textual de “carro de corrida” fica espacialmente próxima a imagens e vídeos contendo carros de corrida, permitindo busca intuitiva entre modalidades.
  • Dimensões de embedding flexíveis: O modelo oferece quatro opções de dimensão (256, 384, 1024 e 3072), treinadas usando Aprendizado de Representação Matryoshka (MRL), permitindo recuperação de baixa latência com perda mínima de precisão entre dimensões. A opção de 1024 dimensões oferece equilíbrio ideal para a maioria das aplicações empresariais, enquanto 3072 dimensões fornecem precisão máxima para casos críticos.
  • APIs síncronas e assíncronas: O modelo oferece suporte tanto à geração de embedding em tempo real para conteúdo menor quanto ao processamento assíncrono para arquivos grandes com segmentação automática. Essa flexibilidade permite que sistemas lidem desde recuperação rápida de consultas textuais até indexação de horas de conteúdo de vídeo.
  • Compreensão avançada de vídeo: Para conteúdo de vídeo, o Nova Multimodal Embeddings oferece capacidades sofisticadas de segmentação, dividindo vídeos longos em segmentos significativos (1 a 30 segundos) e gerando embeddings para cada segmento. Para gerenciamento de criativos publicitários, essa abordagem segmentada se alinha perfeitamente com fluxos de trabalho típicos de produção onde equipes criativas precisam gerenciar e recuperar segmentos de vídeo específicos em vez de vídeos inteiros.

Integração com Serviços AWS

O modelo se integra perfeitamente com outros serviços da AWS para criar uma arquitetura de busca multimodal pronta para produção:

  • Amazon Bedrock: fornece acesso a modelos de fundação com segurança e escalabilidade de nível empresarial
  • Amazon OpenSearch Service: funciona como banco de dados vetorial para armazenar e pesquisar embeddings com tempos de resposta em nível de milissegundos
  • AWS Lambda: gerencia processamento sem servidor para geração de embeddings e operações de busca
  • Amazon Simple Storage Service (Amazon S3): armazena arquivos de mídia originais e resultados de processamento com escalabilidade ilimitada
  • Amazon API Gateway: oferece APIs RESTful para integração com interface de usuário

Fluxo de Trabalho Técnico

Imagem original — fonte: Aws

O sistema opera através de dois fluxos primários: ingestão de conteúdo e recuperação de buscas. Os usuários acessam a interface web através de Amazon CloudFront, enviando arquivos de mídia (imagens, vídeos e áudio) usando arrastar-e-soltar ou seleção de arquivo. Os arquivos são validados, convertidos em formato base64 e enviados através de API Gateway para a função Lambda principal.

A função Lambda decodifica os dados base64 e faz upload dos arquivos brutos para Amazon S3. O S3 automaticamente dispara uma função Lambda dedicada para geração de embeddings quando novos arquivos são enviados, que invoca de forma assíncrona o modelo Nova Multimodal Embeddings em Amazon Bedrock para gerar vetores de embedding unificados para múltiplos tipos de mídia. Esses vetores são armazenados junto com metadados no Amazon OpenSearch Service, criando um banco de dados vetorial pesquisável.

No fluxo de busca e recuperação, usuários iniciavam buscas através da interface usando arquivos enviados ou consultas em texto. A função Lambda de API de busca cria registros de tarefas de busca em Amazon DynamoDB e envia mensagens para uma fila Amazon Simple Queue Service (Amazon SQS) para processamento assíncrono. A função Lambda do worker é acionada por mensagens SQS, extrai parâmetros de busca, invoca o modelo Nova Multimodal Embeddings para gerar vetores de embedding para as consultas, realiza busca de similaridade usando similaridade de cosseno no OpenSearch Service e atualiza os resultados no DynamoDB para consulta pela interface.

Recursos Técnicos Principais

A implementação oferece espaço vetorial unificado onde todos os tipos de mídia (imagens, vídeos, áudio e texto) são incorporados no mesmo espaço dimensional, permitindo busca autêntica entre modalidades. O processamento assíncrono gerencia os requisitos da API do Nova Multimodal Embeddings e garante processamento escalável através de filas SQS e funções Lambda do worker.

O sistema oferece suporte a busca multimodal abrangendo busca de texto-para-imagem, texto-para-vídeo, texto-para-áudio e similaridade entre arquivos. A arquitetura sem servidor se dimensiona automaticamente conforme a demanda, enquanto mecanismo de polling oferece atualizações sobre status do processamento assíncrono e resultados de busca.

Resultados e Validação de Desempenho

Em testes com parceiros da indústria de games utilizando uma biblioteca de 170 ativos (130 vídeos e 40 imagens) em 30 casos de teste, o Nova Multimodal Embeddings demonstrou desempenho excepcional:

  • Taxa de recall bem-sucedida: 96,7% dos casos de teste recuperaram com sucesso o conteúdo alvo
  • Recall de alta precisão: 73,3% dos casos de teste retornaram o conteúdo alvo nos dois primeiros resultados
  • Precisão em recuperação entre modalidades: Precisão superior em recuperação texto-para-vídeo comparada com abordagens tradicionais

Os testes revelaram que para fluxos de trabalho de criação publicitária, a segmentação com 5 segundos se alinha com requisitos típicos de produção. Equipes criativas geralmente precisam segmentar materiais publicitários originais para gerenciamento e recuperar clipes específicos durante fluxos de trabalho de produção, tornando a funcionalidade de segmentação do Nova Multimodal Embeddings particularmente valiosa.

O modelo também demonstra capacidades robustas em múltiplos idiomas. Em testes com consultas em chinês, o modelo obteve pontuação de 78,2 comparado a consultas em inglês com 89,3 (dimensão 3072), representando uma diferença de idioma de apenas 11,1 — significativamente melhor do que modelos multimodais concorrentes que mostram degradação substancial de desempenho entre idiomas.

Otimização de Custos e Escalabilidade

A arquitetura sem servidor oferece dimensionamento automático enquanto otimiza custos. A dimensão de 3072 oferece maior precisão (89,3 para inglês e 78,2 para chinês) mas com custos de armazenamento mais altos. A dimensão 1024 oferece desempenho equilibrado (85,7 para inglês e 68,3 para chinês) e é recomendada para a maioria dos casos empresariais. As opções de 384 e 256 dimensões são otimizadas para custo em implantações de larga escala.

As estratégias de otimização incluem selecionar a dimensão baseada em requisitos de precisão versus custos de armazenamento, usar processamento assíncrono para arquivos grandes para evitar custos de timeout, e aproveitar embeddings pré-calculados para reduzir custos de inferência recorrente de LLM. A arquitetura sem servidor com precificação sob demanda reduz custos durante períodos de baixo uso.

Implementação e Próximos Passos

A implementação completa pode ser implantada usando scripts de automação. Os requisitos essenciais incluem uma conta AWS com acesso ao Amazon Bedrock e disponibilidade do modelo Nova Multimodal Embeddings, AWS Command Line Interface (AWS CLI) v2 configurada com permissões apropriadas para criação de recursos, Node.js 18+ e AWS CDK v2 instalados, e Python 3.11 para implantação de infraestrutura.

O código-fonte completo e scripts de implantação estão disponíveis em um repositório de demonstração. Após implantação bem-sucedida, o sistema oferece interfaces web para upload de arquivos de mídia à biblioteca, realização de consultas multimodais e monitoramento do status de processamento.

Implicações para Profissionais Criativos

A abordagem tradicional para descoberta de ativos criativos exigia marcação manual de milhares de vídeos (trabalhosa e inconsistente), busca por palavras-chave que perdia nuances semânticas, ou análise baseada em LLM que era lenta e custosa demais para consultas em tempo real. Com o Nova Multimodal Embeddings, profissionais criativos conseguem realizar buscas diretas por texto que se traduzem em compreensão semântica genuína, resultando em busca que gera embedding semântico da consulta, pesquisa entre todos os segmentos de vídeo no espaço vetorial unificado, retorno de resultados ordenados por similaridade semântica, e fornecimento de timestamps precisos para segmentos de vídeo relevantes.

Fonte

Scale creative asset discovery with Amazon Nova Multimodal Embeddings unified vector search (https://aws.amazon.com/blogs/machine-learning/scale-creative-asset-discovery-with-amazon-nova-multimodal-embeddings-unified-vector-search/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *