Assistente de IA Conversacional para Recomendações Personalizadas de Filmes na AWS

O Desafio das Recomendações de Conteúdo Moderno

Os sistemas de recomendação formam a base das plataformas modernas de streaming, moldando como os usuários descobrem conteúdo. Abordagens tradicionais baseadas em aprendizado de máquina — como filtragem colaborativa ou baseada em conteúdo — preveem preferências usando padrões históricos. No entanto, frequentemente perdem de vista necessidades dependentes de contexto: hora do dia, estado emocional ou ambiente social. Um usuário que acabou de assistir “Shawshank Redemption” pode receber sugestões de mais dramas carcerários, quando na verdade deseja algo leve para relaxar.

Uma abordagem híbrida supera essa lacuna ao combinar a capacidade de reconhecimento de padrões do aprendizado de máquina tradicional com o entendimento contextual e as habilidades conversacionais da IA generativa. A IA agente vai além, engajando usuários por meio de diálogo dinâmico e raciocínio sobre contexto de visualização. Esses agentes de recomendação sintetizam informações de múltiplas fontes — sinopses, avaliações, histórico de visualizações — e incorporam feedback do usuário em tempo real. É como conversar com um curador de conteúdo especializado que compreende tanto a obra quanto as preferências individuais.

Imagem original — fonte: AWS

Dois Casos de Uso Principais

A solução apresentada pela AWS demonstra duas aplicações práticas. Em primeiro lugar, imagine dizer ao agente de IA que você quer algo divertido após um longo dia e receber recomendações que correspondam ao seu estado emocional, não apenas ao que já assistiu. Em segundo, imagine pausar um filme para perguntar “quem é esse ator?” ou “resuma o que acaba de acontecer?” e obter uma resposta instantânea.

Construir esse assistente conversacional exige orquestração de processamento de voz em tempo real, gerenciamento de contexto, invocação de ferramentas e respostas curadas. Esse é um desafio complexo que pode ser simplificado com ferramentas de IA agente, como Strands Agents SDK, Amazon Bedrock AgentCore e Amazon Nova Sonic 2.0. O sistema utiliza um Protocolo de Contexto de Modelo (MCP) para entregar um concierge de entretenimento pessoal que compreende preferências do usuário via diálogo natural. Os exemplos de código da aplicação estão disponíveis em um repositório GitHub.

Arquitetura da Solução

A solução se concentra em dois fluxos principais: recomendação de filmes e análise de cenas de filmes.

Fluxo de Interação do Usuário

O usuário se autentica em uma interface web hospedada como site estático no Amazon S3 e entregue via Amazon CloudFront com Amazon Cognito. Uma conexão WebSocket é estabelecida do cliente para o servidor hospedado no AWS Fargate, exposto usando um endpoint CloudFront. As comunicações de sessão entre cliente e servidores ocorrem através dessa conexão.

O servidor Fargate valida a conexão recebida e instancia uma sessão com Amazon Nova Sonic 2.0 para comunicações de streaming bidirecional. Comandos de voz do usuário são enviados ao modelo através da conexão WebSocket estabelecida. O contêiner Fargate usa um protocolo Smithy de streaming RPC bidirecional para comunicação com o modelo Nova Sonic.

Imagem original — fonte: AWS

As respostas do modelo são processadas pelo contêiner. O contêiner AWS Fargate gerencia eventos de ferramentas do Nova Sonic e inicia um fluxo de trabalho agente usando o servidor MCP para processar solicitações do usuário. O Amazon Bedrock AgentCore Gateway transforma funções AWS Lambda em ferramentas compatíveis com MCP para o agente.

O Lambda utiliza modelos de compreensão Amazon Nova (micro, lite, pro) para processamento, com OpenSearch e S3 Vector funcionando como camadas de busca semântica e armazenamento. Os resultados retornam ao servidor via Amazon Bedrock AgentCore Gateway. O Fargate envia a resposta ao Amazon Nova Sonic para formular a resposta de voz final, que é transmitida à interface web pela conexão WebSocket.

Interface de Usuário com Fala Natural

O Amazon Nova Sonic 2.0 é um modelo de fala para fala que oferece conversas de voz em tempo real com latência baixa, humanamente naturais. Isso proporciona uma experiência com trocas fluidas que se parecem genuinamente conversacionais, transformando interações de IA de sessões rígidas de perguntas e respostas em diálogos dinâmicos e produtivos. Com suporte assíncrono para conclusão de tarefas, é possível manter diálogo fluido enquanto se processam tarefas complexas em background durante conversas ativas.

O Nova Sonic 2.0 suporta nativamente entradas de texto e fala em streaming, oferecendo flexibilidade em como interagir com o assistente. Você pode definir a personalidade do assistente fornecendo um prompt de sistema no início da conversa. A capacidade de controlar a personalidade do assistente garante que as respostas permaneçam alinhadas à marca e dentro de limites apropriados, ajudando a proteger a reputação do serviço.

Fluxo de Pré-processamento

Os dados de catálogo, cenas de filmes e scripts são processados offline para gerar insights que alimentam os fluxos de personalização e análise de cena. Para demonstrar o recurso de personalização, a AWS criou 500 filmes de exemplo representando um catálogo. Os metadados — título, gênero, descrição — são convertidos em embeddings, representações numéricas que capturam significado. Isso habilita busca semântica, onde consultas são combinadas por significado em vez de palavras-chave exatas. Outros metadados, incluindo membros do elenco e datas de lançamento, são armazenados como atributos no mesmo índice dentro de um cluster Amazon OpenSearch Service com S3 Vector como camada de armazenamento.

Para habilitar análise de cena com alta precisão, o processamento se divide em dois passos. Primeiro, a AWS utiliza Amazon Bedrock Data Automation para extrair insights-chave do conteúdo de vídeo. Os insights incluem resumo em nível de capítulo e timecodes correspondentes, transcrições, segmentos de áudio e mais. Adicionalmente, a funcionalidade de reconhecimento de celebridades no Amazon Rekognition identifica celebridades em capítulos. Segundo, os embeddings gerados de scripts de filmes extraídos via Amazon Bedrock Data Automation são usados para busca de similaridade semântica, servindo como base para o agente encontrar momentos semanticamente similares dentro do script.

Fluxo de Recomendação de Filmes

Imagem original — fonte: AWS

Quando um usuário solicita recomendação de filme, o Amazon Nova Sonic reconhece a intenção e dispara a ferramenta apropriada. Uma função Lambda é acionada via AgentCore Gateway para processar a solicitação. A função primeiro recupera a afinidade do usuário de uma tabela DynamoDB para melhor compreender o perfil do usuário — preferências, gostos e padrões de visualização. Por exemplo, se o usuário assistiu à série Harry Potter, o sistema poderia atribuir maior afinidade a gêneros fantasia e aventura.

Combinando afinidade do usuário e consulta, a solicitação é processada através de múltiplas chamadas de modelo de linguagem em sequência. Primeiro, um modelo classifica o tipo de busca baseado na intenção da consulta — recomendações genéricas, busca direta de filme, citações de filme ou algo completamente não relacionado. O Amazon Nova Micro é usado para essa tarefa dado seu benefício de desempenho de preço. A seguir, a consulta do usuário é enviada a outro modelo para ser reescrita, fornecendo uma consulta de busca mais rica e relevante para busca semântica contra dados de catálogo. Por exemplo, “estou procurando alguns filmes divertidos, o que recomenda?” seria reescrito para “filmes divertidos e entertaining que oferecem humor, excitação ou narrativa agradável”. Através de testes internos, a AWS descobriu que usar Amazon Nova Lite produzia respostas estruturadas de forma mais otimizada em custo.

A saída de reescrita de consulta e prompts de classificação de intenção são usados como parâmetros para uma consulta Amazon OpenSearch Service. A consulta reescrita é convertida em um vetor de 1024 dimensões usando embeddings Nova para busca semântica. Adicionalmente, a consulta incorpora boosting de recência e popularidade para elevar shows mais recentes e com melhor desempenho nos rankings de recomendação. Os resultados retornam 30 filmes relevantes. Finalmente, o Amazon Rerank re-ordena os filmes recomendados baseado nos resultados de busca e na consulta do usuário reescrita para retornar os três filmes mais relevantes.

Fluxo de Análise de Cena

Semelhante ao fluxo de recomendação, a análise de cena utiliza os mesmos componentes. Imagine ter que fazer pausa e perder alguns minutos do seu show favorito — esse assistente forneceria um resumo. Também pode fornecer análise detalhada de uma cena, incluindo atores e o que está acontecendo.

Quando o usuário pausa o filme para fazer pergunta, a aplicação captura metadados relevantes como timecode atual e título do filme, armazenando essas informações em uma tabela Amazon DynamoDB. Por exemplo, se o usuário pergunta “pode me dizer o que está acontecendo nessa cena?”, a aplicação referencia o log de visualização do usuário para localizar o estado mais recente e o filme sendo assistido.

A análise de cena é tratada por ferramenta disparada pelo Amazon Nova Sonic baseado em compreensão contextual do diálogo do usuário. A solicitação é processada através de múltiplas chamadas de modelo de linguagem em sequência. Primeiro, Amazon Nova Micro classifica a intenção da análise de cena baseado na consulta do usuário. Baseado na funcionalidade de classificação de intenção, o fluxo de trabalho apropriado é disparado. Usando o log de visualização recuperado, o sistema extrai resumo de capítulo, transcrição e celebridades conhecidas correspondentes aos timecodes. Os insights de filme, incluindo detalhes de cena e scripts de filme, são processados via Amazon Bedrock Data Automation e armazenados em coleção Amazon OpenSearch Serverless para busca semântica e filtros.

Os detalhes de cena extraídos são usados para encontrar os segmentos mais semanticamente similares do script de filme, e o detalhe do script fornece compreensão de cena enriquecida. O Amazon Nova Micro então resume as informações de cena anterior. A resposta é transformada em fala natural pelo Amazon Nova Sonic e transmitida ao usuário para completar a interação.

Conclusão

A solução apresentada demonstra um agente conversacional de IA que compreende e responde em interação de voz natural, ajudando usuários a descobrir filmes e séries de forma personalizada, enquanto fornece insights em tempo real durante visualização. O sistema analisa padrões individuais de visualização e histórico para criar perfis personalizados que impulsionam recomendações relevantes. Um usuário que assiste muitos filmes de ação pode receber recomendações relacionadas a ação quando pergunta sobre “filmes divertidos”.

A capacidade do Nova Sonic 2.0 de entender linguagem natural, executar buscas de base de conhecimento semântica, gerenciar playlists e manter contexto através de conversas multi-turno representa um avanço significativo — de recomendações baseadas em feedback implícito para coleta explícita e conversacional de preferências. Isso cria uma experiência mais envolvente e intuitiva que pode impulsionar maior engajamento do usuário e retenção de serviço.

Fonte

Deliver hyper-personalized viewer experiences with an agentic AI movie assistant using Amazon Bedrock AgentCore and Amazon Nova Sonic 2.0 (https://aws.amazon.com/blogs/machine-learning/deliver-hyper-personalized-viewer-experiences-with-an-agentic-ai-movie-assistant-using-amazon-bedrock-agentcore-and-amazon-nova-sonic-2-0/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *