Geração de vídeos com busca contextual usando Amazon Bedrock e Amazon Nova Reel

Desafios na geração de vídeos customizados

A geração de vídeos de alta qualidade e totalmente personalizados continua sendo um desafio significativo para muitas organizações. O principal problema é que os modelos de geração de vídeo existentes ficam limitados ao conhecimento com o qual foram treinados, dificultando a criação de conteúdo verdadeiramente customizado. Essa limitação afeta especialmente setores como publicidade, produção audiovisual, educação e games, onde o controle fino sobre o resultado do vídeo é essencial.

Para contornar essa questão, a AWS desenvolveu uma abordagem chamada Video Retrieval Augmented Generation (VRAG) — uma arquitetura multimodal que transforma texto estruturado em vídeos personalizados usando uma biblioteca de imagens como referência. A solução integra Amazon Bedrock, Amazon Nova Reel, o mecanismo de busca vetorial do Amazon OpenSearch Service e o Amazon Simple Storage Service (S3) em um fluxo de trabalho totalmente automatizado.

Como funciona a solução VRAG

Fluxo de funcionamento

O usuário fornece um objeto de interesse (por exemplo, “céu azul”) e a solução consulta o mecanismo de busca vetorial do OpenSearch para recuperar a imagem mais relevante de um conjunto de dados indexado. Em seguida, define um prompt de ação (por exemplo, “câmera gira no sentido horário”), que é combinado com a imagem recuperada para gerar o vídeo usando o Amazon Nova Reel.

Prompts estruturados em arquivos de texto permitem a geração de múltiplos vídeos em uma única execução, criando uma base escalável e reutilizável para geração de mídia assistida por inteligência artificial.

Componentes principais

Recuperação e processamento de imagens: O usuário fornece o objeto de interesse, e a solução consulta o mecanismo de busca vetorial para recuperar a imagem mais relevante de um conjunto de dados indexado contendo imagens e descrições pré-processadas. A imagem é então recuperada de um bucket S3.

Geração de vídeos baseada em prompts: O usuário define um prompt de ação, que é combinado com a imagem recuperada para gerar um vídeo usando o Amazon Nova Reel.

Processamento em lote para múltiplos prompts: A solução lê uma lista de templates de texto de um arquivo chamado prompts.txt, contendo placeholders que permitem o processamento em lote de várias requisições de geração de vídeo com variações estruturadas: <object_prompt> (objeto consultado), <action_prompt> (movimento de câmera ou ação de cena).

Monitoramento e armazenamento: Como a geração de vídeo é assíncrona, a solução monitora o status da tarefa. Quando concluída, o vídeo é armazenado em um bucket S3 e automaticamente baixado para visualização.

Casos de uso práticos

Vídeos educacionais: Criação automática de vídeos instrucionais recuperando imagens relevantes de uma base de conhecimento.

Conteúdo de marketing: Geração de anúncios direcionados recuperando imagens alinhadas a demográficos específicos ou características de produtos.

Conteúdo personalizado: Customização de vídeos para usuários individuais recuperando imagens baseadas em seus interesses específicos.

Exemplo prático: Agência de viagens

Para demonstrar os recursos, considere uma agência de viagens que deseja criar um anúncio apresentando uma cena de praia deslumbrante de um local específico, com câmera panorâmica em direção a um caiaque para atrair reservas de férias.

Usando apenas texto como entrada, o prompt “Panorâmica muito lenta de cima para baixo do céu azul até um caiaque colorido flutuando em água turquesa” gera um vídeo baseado no conhecimento pré-treinado do modelo.

Aplicando VRAG com uma imagem estática da agência, o mesmo prompt agora permite incorporar conteúdo na imagem específica. O resultado é mais alinhado com o cenário e marca da agência.

Implementação: Arquitetura e notebooks

A AWS fornece um modelo CloudFormation que facilita a implantação em poucas etapas. Após a configuração, você terá acesso a uma série de sete notebooks sequenciais numerados de _00 a _06, cada um com instruções passo a passo e objetivos específicos.

Processamento de imagens (notebook _00)

Este notebook automatiza o processamento em lote de imagens, redimensionamento inteligente, encoding em Base64 para compatibilidade com APIs, e armazenamento em S3. Utilizando o Amazon Bedrock com o Amazon Nova, também gera descrições automáticas de imagens, integrando análise multimodal com gerenciamento robusto de dados.

Ingestão de imagens (notebook _01)

Responsável por gerenciar o banco de dados vetorial: criação e configuração de índices, ingestão em massa, e armazenamento eficiente de vetores. Com o Amazon Bedrock e Amazon Titan Embeddings, gera embeddings multimodais e permite buscas semânticas usando implementação de k-NN. O Amazon OpenSearch Serverless armazena e busca esses vetores de forma serverless.

Geração de vídeo a partir de texto (notebook _02)

Constrói a requisição de carga para geração de vídeo com texto como prompt, inicia uma tarefa assíncrona no Amazon Bedrock, rastreia o progresso e recupera o vídeo gerado do S3 para visualização no notebook.

Geração de vídeo com prompts de texto e imagem (notebook _03)

Similar ao anterior, mas agora aceita tanto texto quanto imagem como entrada. O notebook constrói a requisição com ambos os inputs, gerencia a tarefa assíncrona e exibe o vídeo resultante.

Geração de vídeo a partir de múltiplas modalidades (notebook _04)

Implementa o processo VRAG completo: gera embedding para o prompt de entrada, busca no índice de coleção do OpenSearch Serverless, e combina texto com imagens recuperadas para gerar vídeos em escala com observabilidade.

Atualização de imagens com inpainting (notebook _05)

Utiliza o Amazon Nova Reel para leitura de imagens em Base64 e geração de imagens com inpainting, permitindo remover objetos indesejados, corrigir porções de imagens ou modificar criativamente áreas específicas.

Geração de vídeo com imagens aprimoradas (notebook _06)

Busca imagens relevantes no OpenSearch Service usando consultas em linguagem natural, define máscaras explícitas para regiões de inpainting e gera vídeos usando as imagens aprimoradas. Demonstra como o inpainting pode potencializar a qualidade final do vídeo gerado.

Pré-requisitos e implantação

Você precisará ter acesso a uma conta AWS válida e familiaridade com instâncias de notebook do Amazon SageMaker.

A implantação utiliza um modelo do AWS CloudFormation no padrão de região US East (N. Virginia). Consulte a documentação sobre suporte de modelos por região no Amazon Bedrock para verificar se o Amazon Nova Reel está disponível em sua região.

Após a implantação bem-sucedida, a instância de notebook do SageMaker ficará pronta. Você abrirá o JupyterLab e acessará a pasta sample-video-rag contendo todos os notebooks necessários.

Boas práticas para produção

Um processo eficiente de geração de vídeo com inteligência artificial requer integração contínua de gerenciamento de dados, otimização de buscas e conformidade regulatória.

Qualidade dos dados: A qualidade do vídeo gerado depende fortemente da qualidade e relevância do banco de dados de imagens utilizado na busca contextual. Imagens de baixa qualidade ou pouco relevantes resultarão em vídeos subótimos.

Legendas de imagens: Para resultados ótimos, considere incorporar legendas de imagens ou metadados que forneçam contexto adicional para a solução.

Edição de vídeos: Embora a busca contextual forneça os elementos visuais principais, técnicas adicionais de edição de vídeo podem ser necessárias para criar um produto final polido.

Conformidade regulatória: Mantenha aderência rigorosa às diretrizes da Lei de IA da EU e outras regulamentações aplicáveis ao seu contexto.

Limpeza de recursos

Para evitar cobranças futuras, limpe os recursos criados. No console do Amazon S3, localize o bucket criado pelo modelo CloudFormation, escolha “Esvaziar” e confirme a exclusão. Em seguida, no console do AWS CloudFormation, selecione o stack, escolha “Deletar” e confirme. Isso removerá todos os recursos provisionados, incluindo a instância de notebook do SageMaker, a coleção do OpenSearch Serverless e as funções IAM.

Considerações finais

A busca contextual para geração de vídeos representa um avanço significativo na criação de conteúdo assistida por inteligência artificial, integrando bancos de dados de imagens existentes com prompts de usuários para produzir conteúdo de vídeo contextualmente relevante. Essa abordagem demonstra aplicações poderosas em educação, marketing, entretenimento e além.

À medida que a tecnologia de geração de vídeo continua evoluindo, essa solução oferece uma base sólida para criar conteúdo de vídeo envolvente e contextualmente consciente em escala. Seguindo as boas práticas e mantendo foco em qualidade de dados, organizações podem transformar seus processos de criação de conteúdo em vídeo enquanto produzem resultados consistentes e de alta qualidade.

Fonte

Use RAG for video generation using Amazon Bedrock and Amazon Nova Reel (https://aws.amazon.com/blogs/machine-learning/use-rag-for-video-generation-using-amazon-bedrock-and-amazon-nova-reel/)