Construindo aplicações de voz em tempo real com Amazon Nova Sonic e WebRTC

O problema com streaming de voz em tempo real

Desenvolver aplicações de streaming ao vivo com interação de voz em tempo real é um desafio técnico considerável. Restrições de largura de banda de rede podem causar alta latência e degradação de qualidade em aplicações onde o tempo é crítico. Barreiras de idioma limitam a interação eficaz entre humanos e máquinas em comunicações multilíngues. Escalabilidade e resiliência exigem um equilíbrio difícil entre desempenho e custos de infraestrutura. E a compatibilidade entre navegadores e dispositivos móveis demanda esforço significativo de desenvolvimento, especialmente para startups.

Para endereçar esses desafios, a AWS documentou uma solução baseada na combinação do Amazon Nova 2 Sonic com o Amazon Kinesis Video Streams WebRTC. O WebRTC é responsável por ajustar dinamicamente o bitrate em redes instáveis, o que ajuda a manter a qualidade do áudio enquanto reduz conexões perdidas. O Nova Sonic, por sua vez, viabiliza diálogos naturais em linguagem humana, permitindo que usuários interajam de forma mais fluida no idioma de sua preferência. Ambos os serviços são totalmente gerenciados pela AWS, escalando automaticamente com alta resiliência.

Nova Sonic e WebRTC: entendendo cada peça

Pipelines tradicionais de agentes de voz geralmente envolvem módulos separados para reconhecimento de fala, processamento de linguagem e síntese de voz. O Nova Sonic oferece uma arquitetura unificada de fala-para-fala (speech-to-speech) que viabiliza conversas de voz em tempo real entre usuários e agentes de IA com baixa latência. Com compreensão e geração de fala unificadas, o Nova Sonic entrega uma IA conversacional natural, próxima à interação humana. O modelo oferece diferentes estilos de fala e interfaces de ferramentas para agentes externos, permitindo construir interfaces de voz mais responsivas e com maior consciência contextual.

Um pipeline de streaming típico é composto por três componentes principais: fonte de mídia, servidor de mídia e consumidor de mídia. Esses componentes se comunicam por protocolos como RTMP, RTSP, HLS, MPEG-DASH e WebRTC.

A Comunicação em Tempo Real pela Web (WebRTC) é um protocolo público que moderniza o streaming ao vivo ao fornecer conexões diretas ponto a ponto (peer-to-peer) em tempo real, sem necessidade de plugins ou instalações adicionais. Essa abordagem elimina a necessidade de servidores intermediários e reduz significativamente a latência. Entre todos os protocolos de streaming de mídia, o WebRTC entrega a menor latência.

O WebRTC também inclui recursos nativos como streaming com taxa de bits adaptativa (ABR), correção antecipada de erros (FEC) e gerenciamento de buffer de jitter. Esses recursos ajustam automaticamente o consumo de largura de banda e resolvem problemas de perda de pacotes em conectividade fraca, mantendo conversas fluentes mesmo em condições de rede precárias. A natureza de código aberto do WebRTC e sua ampla compatibilidade com navegadores (Chrome, Firefox, Safari, Edge, Android, iOS, entre outros) aceleram a adoção da solução. Ele também é bem adequado para o processamento em tempo real de fluxos de mídia com funções de IA.

Arquitetura da solução

Existem vários cenários em que faz sentido implantar soluções de streaming ao vivo com interação de voz multilíngue:

Veículos conectados que auxiliam motoristas com capacidades de tradução em tempo real.
Fábricas inteligentes que suportam comunicação entre operadores de diferentes culturas por meio de sistemas de controle de qualidade ativados por voz.
Aplicações de robótica que fornecem interações de atendimento ao cliente multilíngue.
Dispositivos de casa inteligente que oferecem controle por voz em diferentes idiomas, possibilitando suporte técnico global por meio de tradução de áudio e orientação visual em tempo real.

A solução documenta como implantar o Nova Sonic em conjunto com o Kinesis Video Streams como um serviço WebRTC gerenciado, incluindo integração de ferramentas com fontes populares como Geração Aumentada por Recuperação (RAG), Protocolo de Contexto de Modelo (MCP) e Strands Agents.

O fluxo da arquitetura funciona da seguinte forma:

[1] No aplicativo cliente, os usuários estabelecem o processo de negociação WebRTC conectando-se ao canal de sinalização WebRTC do Kinesis Video Streams. Os dados de áudio e vídeo são transmitidos por meio da conexão WebRTC bidirecional.
[2] Após a troca de mensagens de sinalização para oferta/resposta do Protocolo de Descrição de Sessão (SDP) e candidatos de Estabelecimento de Conectividade Interativa (ICE), o cliente e o servidor iniciam as tentativas de conexão peer bidirecional, permitindo a transmissão de dados com baixa latência.
[3] O canal de mídia lida com streaming de áudio e vídeo em tempo real com controle de taxa de bits adaptativa e negociação de codec. O canal de dados fornece transmissão confiável e ordenada de dados arbitrários da aplicação (textos, arquivos, mensagens de controle). Ambos utilizam criptografia Segurança da Camada de Transporte de Datagrama (DTLS) e os protocolos Utilitários de Travessia de Sessão para NAT (STUN)/Travessia Usando Retransmissores em torno de NAT (TURN) para travessia de Tradução de Endereço de Rede (NAT).
[4] O processador de eventos de fala-para-fala orquestra a interação de eventos de entrada e eventos de saída com o Nova Sonic. Na solução, eles são categorizados em eventos de mídia transmitidos pelo canal de mídia WebRTC, e dados de texto transmitidos pelo canal de dados WebRTC.
[5] O SDK Python é utilizado para estabelecer uma conexão HTTP/2 para streaming bidirecional com o Nova Sonic, suportando comunicação de dados de mídia em tempo real com latência mínima.
[6] Além da conversa de áudio fala-para-fala com conhecimento pré-treinado, o Nova Sonic suporta chamadas assíncronas de ferramentas para acessar servidores MCP, Strands agents ou RAG.

Comparação com a solução WebSocket

Comparada à opção de implantação via WebSocket, a solução de fala-para-fala baseada em WebRTC oferece uma camada de rede diferente, mais adequada para dispositivos móveis e de IoT. Esses dispositivos frequentemente exigem conexões de baixa latência sem alta largura de banda de rede. A solução também incorpora uma camada personalizada de Detecção de Atividade de Voz (VAD) para uma experiência de usuário aprimorada.

Mudança no protocolo de streaming de áudio

Os dados de voz são transmitidos pelo canal de mídia WebRTC em modo streaming — especificamente pelo track de áudio da conexão peer no formato Protocolo de Transporte em Tempo Real Seguro (SRTP), em vez de mensagens WebSocket. Os recursos WebRTC (como oferta/resposta SDP, DTLS, Protocolo de Controle de Transmissão de Fluxo (SCTP), SRTP e conexão peer) foram implementados usando a biblioteca Python aiortc.

Mecanismo de detecção de voz humana

O cliente WebRTC em React captura continuamente o áudio e o envia para o servidor WebRTC em Python. Para suprimir ruídos, aumentar a precisão da fala e reduzir os tokens de áudio para o Nova Sonic, a solução aplica a Detecção de Atividade de Voz (VAD) ao pipeline no lado do servidor, com base na biblioteca Python WebRTCVAD. Construída sobre um Modelo de Mistura Gaussiana (GMM), essa biblioteca é leve, estável e rápida para processamento de áudio em nível de frame WebRTC. Outras bibliotecas como Silero VAD e Pyannote VAD também podem ser utilizadas.

Adaptação do formato de dados de áudio

O WebRTC define padrões específicos de formato de áudio e vídeo. Ao enviar e receber dados de áudio por uma conexão WebRTC, é necessário realizar algumas adaptações de formato:

[1] Frames estéreo intercalados exigem a extração do canal de áudio esquerdo ou direito;
[2] Taxas de amostragem de 48kHz ou outras serão reamostradas para 16kHz, conforme exigido pela API do Nova Sonic;
[3] Valores de dados Int16 serão convertidos para Float32 para maior precisão de cálculo.

Para mais detalhes técnicos, consulte a documentação no GitHub.

Exemplos práticos da solução

O repositório no GitHub disponibiliza uma amostra genérica e dois exemplos de cenários específicos: casa inteligente e veículo conectado. Esses padrões podem ser adaptados para suas próprias aplicações.

Exemplo de casa inteligente

No cenário de casa inteligente, o usuário abre um diálogo com o Nova Sonic para controlar dispositivos IoT. Para ilustrar um pipeline de comandos completo, a solução utiliza uma Base de Conhecimento do Amazon Bedrock para recuperar tópicos MQTT e gerar respostas de IA. Em seguida, conecta-se ao servidor MCP para AWS IoT Core para entregar as mensagens de comando. Os passos de configuração estão disponíveis no readme do exemplo smart-home no GitHub.

Exemplo de veículo conectado

No cenário de veículo conectado, o sistema estabelece monitoramento em tempo real para detectar comportamentos perigosos de uso de celular por motoristas. O sistema utiliza assistentes de voz para perguntar se o motorista precisa de assistência e verificar sua atenção. A equipe de supervisão pode acessar feeds de monitoramento em tempo real em um canal de vídeo independente para confirmar o status de segurança de veículos e motoristas. As conexões WebRTC simultâneas são independentes entre si, com criptografia TLS dedicada. Os passos de configuração estão disponíveis no readme do exemplo connected-vehicle no GitHub.

Próximos passos

A solução documentada pela AWS demonstra como construir uma aplicação baseada em WebRTC que combina o Amazon Nova 2 Sonic com o Amazon Kinesis Video Streams WebRTC para endereçar barreiras comuns no streaming ao vivo — como degradação de desempenho em redes instáveis e ausência de inteligência conversacional. A base de código disponível pode ser usada como ponto de partida para construir aplicações de assistente de voz de baixa latência, inteligentes e robustas para dispositivos inteligentes e veículos conectados.

Para se aprofundar no tema:

Leia o blog de fala-para-fala para conhecer os recursos mais recentes do Amazon Nova 2 Sonic.
Explore o repositório de fala-para-fala no GitHub para mais cenários de uso.
Consulte o Guia do Desenvolvedor do Amazon Kinesis Video Streams para mais casos de uso de streaming ao vivo.

Fonte

Build real-time voice streaming applications with Amazon Nova Sonic and WebRTC (https://aws.amazon.com/blogs/machine-learning/build-real-time-voice-streaming-applications-with-amazon-nova-sonic-and-webrtc/)

Construindo aplicações de voz em tempo real com Amazon Nova Sonic e WebRTC

O problema com streaming de voz em tempo real

Nova Sonic e WebRTC: entendendo cada peça

Arquitetura da solução

Comparação com a solução WebSocket

Mudança no protocolo de streaming de áudio

Mecanismo de detecção de voz humana

Adaptação do formato de dados de áudio

Exemplos práticos da solução

Exemplo de casa inteligente

Exemplo de veículo conectado

Próximos passos

Fonte

Comments

Leave a Reply Cancel reply

More posts

CloudTroop Weekly #016 — 2026-w24

Construído de dentro para fora: como o AWS Professional Services virou uma equipe de fronteira em IA

De PDFs a insights: como a AWS está arquitetando pipelines inteligentes de processamento de documentos com IA generativa

SageMaker AI agora suporta fine-tuning serverless para modelos NVIDIA Nemotron