Do Data Lake à Análise com IA: Amazon Quick agora consulta S3 Tables diretamente

Contexto: quando analytics e IA precisam andar juntos

Organizações ao redor do mundo estão cada vez mais buscando combinar análise de dados e Inteligência Artificial (IA) para acelerar decisões. Nesse cenário, a AWS posiciona o Amazon Quick como um serviço unificado de analytics com IA agêntica — reunindo visualização de dados, interação em linguagem natural e automação orientada por agentes em uma experiência única e governada. A proposta é que usuários de negócio consigam explorar dados, gerar insights e tomar ações sem precisar de expertise em aprendizado de máquina.

Ao mesmo tempo, arquiteturas modernas de dados estão migrando para data lakes escaláveis baseados em formatos de tabela abertos, como o Apache Iceberg. Esses formatos oferecem melhor desempenho, eficiência de custo e governança. O problema clássico, porém, é que analisar dados em grande escala normalmente exige movê-los para data warehouses ou sistemas OLAP — o que introduz latência, custo adicional e complexidade operacional.

Para resolver esse gargalo, a AWS anunciou uma novidade importante: o Amazon Quick agora suporta o Amazon S3 Tables (tabelas Apache Iceberg) como uma nova fonte de dados nativa.

O que muda com a integração S3 Tables no Amazon Quick

Com esse novo recurso, o Amazon Quick passa a permitir consultas e visualizações diretas de tabelas Apache Iceberg armazenadas em um bucket de tabelas do Amazon S3 — sem a necessidade de camadas intermediárias de consulta. Isso representa uma escolha arquitetural adicional para equipes que precisam reduzir movimentação de dados, melhorar desempenho e manter uma fonte única, governada e confiável.

O recurso suporta dois modos de operação: Direct Query e SPICE (Motor de Cálculo em Memória, Super-rápido e Paralelo — SPICE). O modo Direct Query é o foco principal dessa novidade, pois é ele que viabiliza o acesso em tempo quase real aos dados do data lake. O modo SPICE continua disponível para cenários que preferem atualizações programadas.

Benefícios principais

  • Arquitetura simplificada: elimina a necessidade de data warehouses ou camadas OLAP separadas, reduzindo complexidade operacional e overhead de infraestrutura.
  • Insights em tempo quase real: minimiza a movimentação de dados e dependências de pipelines, garantindo que dashboards e análises reflitam os dados mais recentes disponíveis.
  • Escalabilidade: suporta consultas a conjuntos de dados de grande escala armazenados em buckets de tabelas S3 sem exigir curadoria, replicação ou restrições de tamanho.

Visão geral da solução

Para ilustrar o uso prático, a AWS apresenta um cenário fictício com a empresa AnyCompany Corp., uma organização global de serviços financeiros que processa transações de cartão em múltiplas regiões. Os dados de transação são gerados por fontes diversas: sistemas de ponto de venda, aplicativos de mobile banking, dispositivos de pagamento habilitados para Internet das Coisas (IoT) e gateways online.

Para atender às necessidades de detecção de fraude, monitoramento de taxas de aprovação e acesso rápido a insights acionáveis, a solução combina ingestão de dados em streaming, data lake em formato de tabela aberta e analytics com IA. Os eventos de transação são transmitidos via Amazon Kinesis Data Streams e entregues pelo Amazon Data Firehose em um bucket de tabelas S3 no formato Apache Iceberg.

Com o conector nativo de S3 Tables do Quick, usuários de negócio conseguem consultar o data lake em tempo quase real e analisar os dados usando linguagem natural — sem depender de processamento em lote.

Arquitetura da solução

A arquitetura é composta por quatro camadas principais: ingestão de dados, armazenamento, consulta e analytics. O destaque da novidade está nas camadas de consulta e analytics.

Os eventos de transação são ingeridos em tempo real via Amazon Kinesis Data Streams, formando uma camada de streaming escalável e de baixa latência. Esses eventos são entregues continuamente a um bucket de tabelas S3 no formato Apache Iceberg, criando um data lake de alta performance que suporta tanto cargas de trabalho de streaming quanto analíticas.

Enquanto dados poderiam ser consultados tradicionalmente via Amazon Athena, o Amazon Quick permite consultas diretas e em tempo quase real ao S3 Tables, além de análise com IA em linguagem natural. Usuários de negócio podem explorar datasets ao vivo, gerar visualizações e obter insights — como identificar regiões com altas taxas de fraude na última hora — sem necessidade de expertise técnica.

Pré-requisitos

Para implementar essa solução, é necessário ter o pipeline de streaming (ingestão e armazenamento) já configurado, com os dados disponíveis em um bucket de tabelas do Amazon S3. Também é necessária uma assinatura do Amazon Quick Enterprise.

Como configurar: passo a passo

Passo 1: Habilitar o acesso ao S3 Tables no Amazon Quick

O primeiro passo é configurar o Amazon Quick para acessar o S3 Tables, permitindo que os buckets de tabelas sejam descobertos automaticamente ao criar uma fonte de dados. Isso é feito nas configurações de conta do Quick, na seção de permissões para recursos AWS. Basta selecionar o Amazon S3 Tables, escolher o bucket de tabelas relevante e salvar as configurações. Esse passo adiciona as permissões necessárias à role do Amazon Quick para descobrir os dados do bucket especificado.

Passo 2: Criar uma fonte de dados no Amazon Quick usando S3 Tables

Com as permissões configuradas, o próximo passo é criar uma fonte de dados apontando para o bucket de tabelas desejado. No exemplo da AWS, o bucket s3table-datasamples contém duas tabelas: customer_dimension (dados fictícios de clientes bancários) e transaction_events (dados fictícios de transações de cartão de crédito em streaming). O processo envolve selecionar “Amazon S3 Tables (tabelas Apache Iceberg)” como tipo de fonte de dados e informar o ARN do bucket.

Passo 3: Construir um dataset no Amazon Quick

Com a fonte de dados criada, o próximo passo é construir um dataset. O fluxo consiste em selecionar o namespace da fonte de dados, escolher as tabelas desejadas e configurar os joins necessários. No exemplo, as tabelas customer_dimension e transaction_events são unidas pela coluna customer_id usando um Inner Join. Um detalhe importante: o modo Direct Query deve estar selecionado para aproveitar ao máximo o acesso em tempo quase real ao S3 Tables. O modo SPICE pode ser escolhido caso se prefira atualizações programadas.

Passo 4: Interagir com o dataset via chat do Amazon Quick

Após publicar o dataset, é possível iniciar conversas com os dados usando linguagem natural pelo assistente “My Assistant” do Amazon Quick. No exemplo apresentado, o usuário pergunta ao agente o total de transações ocorridas no mês atual e, em seguida, solicita um detalhamento por dia usando o timestamp de ingestão. O agente retorna as respostas automaticamente, sem necessidade de configuração técnica adicional.

Passo 5: Demonstrar a responsividade em tempo quase real com dados em streaming

Para validar a capacidade de tempo quase real, novos dados de transação são transmitidos usando uma função AWS Lambda como produtor para um Kinesis Data Stream, armazenando os dados no bucket de tabelas S3 no formato Apache Iceberg via Firehose. Ao consultar novamente o assistente com um prompt solicitando os dados mais recentes, o agente retorna os registros recém-ingeridos — sem necessidade de atualização manual do dataset. Para criar sua própria fonte de streaming, a AWS disponibiliza a documentação oficial e posts de referência com orientações detalhadas.

Quando usar Direct Query vs. SPICE

Vale destacar que o modo Direct Query é a escolha certa quando o cenário exige acesso a dados atualizados em tempo quase real, como em casos de monitoramento de fraude ou análise de transações recentes. Já o modo SPICE continua sendo uma opção adequada para cenários analíticos típicos que se baseiam em atualizações programadas e não exigem acesso em tempo quase real.

Conclusão

A integração do Amazon Quick com o Amazon S3 Tables representa um avanço significativo para arquiteturas modernas de dados. Ao permitir consultas diretas a tabelas Apache Iceberg no S3, a AWS elimina camadas intermediárias, reduz a movimentação de dados e preserva uma fonte única e governada de verdade. Combinado com a experiência de chat em linguagem natural do My Assistant, o resultado é uma plataforma unificada de analytics com IA onde dados, insights e ações se integram de forma fluida e em tempo quase real.

Para mais detalhes sobre o recurso, consulte a documentação oficial sobre criação de datasets usando Amazon S3 Tables. Para dúvidas e discussões adicionais, a comunidade do Amazon Quick está disponível para suporte.

Fonte

From data lake to AI-ready analytics: Introducing new data source with S3 Tables in Amazon Quick (https://aws.amazon.com/blogs/machine-learning/from-data-lake-to-ai-ready-analytics-introducing-direct-query-with-s3-tables-in-amazon-quick/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *