IA Agêntica para Analytics com Amazon SageMaker, Athena e Amazon Quick

O problema que essa arquitetura resolve

Grandes empresas acumulam petabytes de dados em data lakes e lakehouses, mas transformar esse volume em decisões rápidas ainda é um gargalo. O motivo é simples: acessar esses dados exige especialistas em SQL, modelagem de dados e ferramentas de Business Intelligence (BI). Quem está no negócio — analistas, gestores, times de operação — fica dependente da fila técnica para obter respostas.

A AWS publicou uma arquitetura de referência que endereça exatamente esse problema. A proposta combina Amazon SageMaker, Amazon Athena e Amazon Quick para criar um assistente de IA agêntica capaz de responder perguntas sobre dados complexos usando linguagem natural — sem que o usuário precise escrever uma linha de SQL.

Visão geral da arquitetura

A solução foi construída usando o dataset de benchmark TPC-H como base de dados. A escolha é estratégica: o TPC-H representa um modelo de negócio realista com pedidos, clientes e itens de linha, tornando os exemplos reproduzíveis e significativos.

Os principais componentes da arquitetura são:

O fluxo funciona da seguinte forma: os dados TPC-H são ingeridos e armazenados no S3 em três formatos distintos. O Athena executa consultas sobre esses dados usando o catálogo do AWS Glue como camada de metadados unificada. O Amazon Quick se conecta ao Athena para carregar os dados no SPICE (Motor de Cálculo Super-rápido, Paralelo e em Memória), onde alimenta dashboards interativos e agentes de chat com IA. Em paralelo, um Web Crawler indexa documentação não estruturada do TPC-H em uma Knowledge Base (Base de Conhecimento), que também é disponibilizada ao agente conversacional.

Três formatos de armazenamento no mesmo lakehouse

Um dos pontos mais instrutivos da arquitetura é a demonstração de três abordagens diferentes de armazenamento, todas consultáveis pelo mesmo Athena:

Tabela externa CSV

Utiliza o dataset de clientes do TPC-H diretamente de um bucket público do S3. Com tabelas externas, o Athena consulta os dados no local original sem movê-los — uma abordagem rápida e econômica para explorar dados brutos. O comando de criação no editor de queries do Athena é:

CREATE EXTERNAL TABLE IF NOT EXISTS blog_qs_athena_tpc_h_db_sql.customer_csv (
  C_CUSTKEY INT,
  C_NAME STRING,
  C_ADDRESS STRING,
  C_NATIONKEY INT,
  C_PHONE STRING,
  C_ACCTBAL DOUBLE,
  C_MKTSEGMENT STRING,
  C_COMMENT STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
STORED AS TEXTFILE
LOCATION 's3://redshift-downloads/TPC-H/2.18/100GB/customer/'
TBLPROPERTIES ('classification' = 'csv');

Tabela Apache Iceberg (Parquet)

O Apache Iceberg é um formato de tabela aberto que traz transações ACID, time travel e evolução de partições para o data lake — ideal para cargas de trabalho em produção. A arquitetura cria uma tabela Iceberg a partir dos dados de pedidos usando o comando CREATE TABLE AS SELECT (CTAS), particionada por data de pedido:

CREATE TABLE blog_qs_athena_tpc_h_db_sql.orders_iceberg
WITH (
  table_type = 'ICEBERG',
  format = 'PARQUET',
  is_external = false,
  partitioning = ARRAY['o_orderdate'],
  location = 's3://amzn-s3-demo-bucket/tpch_iceberg/orders/')
AS SELECT *
FROM blog_qs_athena_tpc_h_db_sql.orders_csv
WHERE O_ORDERDATE BETWEEN '1998-06-01' AND '1998-12-31';

Amazon S3 Tables

As Amazon S3 Tables são tabelas totalmente gerenciadas com suporte nativo ao Apache Iceberg. Elas eliminam a necessidade de gerenciar operações de manutenção como compactação e remoção de arquivos não referenciados. A criação também usa CTAS, desta vez apontando para o catálogo s3tablescatalog:

CREATE TABLE lineitem_csv_s3_table
WITH (
  format = 'PARQUET')
AS SELECT *
FROM AwsDataCatalog.blog_qs_athena_tpc_h_db_sql.lineitem_csv
WHERE CAST(L_SHIPDATE AS DATE) BETWEEN DATE('1998-06-01') AND DATE('1998-12-31');

Preparação dos dados no Amazon Quick

Com as três tabelas registradas e consultáveis no Athena, o próximo passo é conectá-las ao Amazon Quick. A conexão é feita por meio de uma única fonte de dados Athena — as três tabelas ficam acessíveis porque todas estão catalogadas no AWS Glue Data Catalog e acessíveis pelo mesmo workgroup do Athena.

Cada tabela vira um dataset separado no Quick, importado para o SPICE para garantir performance sub-segundo em dashboards e fluxos agênticos. Um ponto de atenção importante: as S3 Tables ficam em um catálogo AWS Glue não padrão (s3tablescatalog), o que significa que elas não aparecem no navegador visual de tabelas do Quick. Para criar o dataset dessa tabela, é necessário usar SQL customizado:

SELECT * FROM "s3tablescatalog/blog-qs-athena-tpc-h-db-sql-s3-table-mar-3"."blog_qs_athena_tpc_h_namespace"."lineitem_csv_s3_table"

Join entre os três datasets

O esquema TPC-H é um esquema estrela por design. Para unir as três tabelas, a abordagem recomendada é fazer o join diretamente no Athena via SQL customizado e ingerir o resultado unificado no SPICE como um único dataset desnormalizado. Isso delega o processamento ao Athena e elimina restrições de tamanho de tabelas secundárias no Quick:

SELECT
  c.c_custkey, c.c_name, c.c_mktsegment, c.c_nationkey,
  o.o_orderkey, o.o_orderdate, o.o_orderstatus, o.o_totalprice, o.o_orderpriority,
  l.l_linenumber, l.l_partkey, l.l_suppkey, l.l_quantity,
  l.l_extendedprice, l.l_discount, l.l_shipmode, l.l_returnflag
FROM "s3tablescatalog/blog-qs-athena-tpc-h-db-sql-s3-table-mar-3"."blog_qs_athena_tpc_h_namespace"."lineitem_csv_s3_table" l
INNER JOIN "blog_qs_athena_tpc_h_db_sql"."orders_iceberg" o
  ON l.l_orderkey = o.o_orderkey
INNER JOIN "blog_qs_athena_tpc_h_db_sql"."customer_csv" c
  ON o.o_custkey = c.c_custkey;

Camada de BI e IA conversacional

Topic e Dashboard com Amazon Q

Com o dataset unificado no SPICE, a arquitetura configura um Topic no Amazon Quick — a camada semântica que traduz nomes de colunas em conceitos de negócio. Quando um usuário pergunta “Qual foi a receita total no último trimestre por segmento de cliente?”, o Topic mapeia “receita” para l_extendedprice, “último trimestre” para um filtro em o_orderdate e “segmento de cliente” para c_mktsegment. Sem esse mapeamento, as consultas em linguagem natural retornam resultados genéricos ou incorretos.

O dashboard é construído usando o Amazon Q dentro do Quick, que permite criar visualizações a partir de prompts em linguagem natural como “Mostre um KPI de receita total” ou “Crie um gráfico de barras de receita por status de pedido”. Após a publicação, o dashboard embute uma barra de perguntas em linguagem natural para que os usuários façam perguntas adicionais sem sair da tela.

Knowledge Base e agente de chat

Em paralelo ao fluxo estruturado, a arquitetura configura uma Knowledge Base alimentada pela especificação oficial do TPC-H (documento PDF público). Um Web Crawler indexa esse conteúdo não estruturado, tornando-o pesquisável pelo agente de chat.

O agente é configurado dentro de um Space (Espaço) do Amazon Quick — a camada organizacional que agrupa Topic, Knowledge Base e Dashboard em um único contexto governado. A instrução de persona do agente define claramente seu escopo: responder perguntas sobre receita de pedidos, performance de fornecedores, precificação de itens e disponibilidade de inventário, sempre fundamentando as respostas nos dados do lakehouse TPC-H.

Na prática, quando um analista de negócio pergunta “Qual segmento de clientes gerou mais receita no mês passado, e o que significa ‘segmento de mercado’ no esquema TPC-H?”, o agente:

  • Consulta o Topic TPC-H Analytics para obter a receita por c_mktsegment filtrada ao último mês
  • Simultaneamente recupera a definição de c_mktsegment da Knowledge Base
  • Retorna uma resposta unificada: o ranking de receita com citação ao dataset SPICE, seguido da definição do campo com citação ao documento de especificação

Sem SQL. Sem navegação em dashboards. Sem ticket para o time de dados.

Permissões e governança

A arquitetura mantém governança corporativa em toda a cadeia. Se o AWS Lake Formation estiver habilitado, ele atua como a camada central de autorização, sobrescrevendo as permissões IAM padrão do S3. Nesse caso, as permissões precisam ser concedidas diretamente ao autor do Amazon Quick ou à role IAM no console do Lake Formation. Se o Lake Formation não estiver habilitado, as permissões são gerenciadas no nível da service role do Quick via controle de acesso IAM padrão.

Para S3 Tables especificamente, a service role do Quick requer uma política inline adicional glue:GetCatalog para acessar o catálogo não padrão s3tablescatalog. A referência completa está disponível na documentação Visualizando dados de S3 Tables com Amazon Quick.

Limpeza dos recursos

Após os testes, a AWS recomenda remover todos os artefatos criados para evitar custos desnecessários. O processo de limpeza envolve, na ordem:

  • Dropar tabelas e banco de dados via console do Athena
  • Remover o S3 Table bucket, namespace e tabela via AWS CLI, SDKs ou API REST do S3
  • Excluir o bucket S3 via console
  • No Amazon Quick: excluir o Chat Agent, o Space, o Dashboard, o Topic, a Knowledge Base, os Datasets e a fonte de dados, nessa ordem

Conclusão

A arquitetura demonstrada pela AWS mostra como é possível transformar um lakehouse complexo — com dados em múltiplos formatos e fontes — em uma interface conversacional acessível para usuários de negócio. A combinação de Amazon Athena para consulta serverless, AWS Glue para catálogo unificado, SPICE para performance em memória e os agentes de IA do Amazon Quick cria uma camada de self-service que mantém governança e escalabilidade corporativa.

Para equipes que buscam democratizar o acesso a dados sem abrir mão de segurança e controle, essa arquitetura de referência oferece um caminho concreto e reproduzível. A documentação de referência inclui tutoriais adicionais para casos de uso em B2B, receita, vendas, marketing e RH, além de guias aprofundados sobre permissões com Lake Formation.

Links úteis para aprofundamento:

Fonte

Unleashing Agentic AI Analytics on Amazon SageMaker with Amazon Athena and Amazon Quick (https://aws.amazon.com/blogs/machine-learning/unleashing-agentic-ai-analytics-on-amazon-sagemaker-with-amazon-athena-and-amazon-quick/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *