IA Agêntica para Analytics com Amazon SageMaker, Athena e Amazon Quick

O problema que essa arquitetura resolve

Grandes empresas acumulam petabytes de dados em data lakes e lakehouses, mas transformar esse volume em decisões rápidas ainda é um gargalo. O motivo é simples: acessar esses dados exige especialistas em SQL, modelagem de dados e ferramentas de Business Intelligence (BI). Quem está no negócio — analistas, gestores, times de operação — fica dependente da fila técnica para obter respostas.

A AWS publicou uma arquitetura de referência que endereça exatamente esse problema. A proposta combina Amazon SageMaker, Amazon Athena e Amazon Quick para criar um assistente de IA agêntica capaz de responder perguntas sobre dados complexos usando linguagem natural — sem que o usuário precise escrever uma linha de SQL.

Visão geral da arquitetura

A solução foi construída usando o dataset de benchmark TPC-H como base de dados. A escolha é estratégica: o TPC-H representa um modelo de negócio realista com pedidos, clientes e itens de linha, tornando os exemplos reproduzíveis e significativos.

Os principais componentes da arquitetura são:

Amazon Simple Storage Service (S3) como camada de armazenamento principal
Amazon SageMaker e AWS Glue para a estrutura do lakehouse e catálogo de metadados
Amazon Athena para consultas SQL serverless em múltiplos formatos de armazenamento
Amazon Quick para dashboards, agentes de IA conversacional e bases de conhecimento

O fluxo funciona da seguinte forma: os dados TPC-H são ingeridos e armazenados no S3 em três formatos distintos. O Athena executa consultas sobre esses dados usando o catálogo do AWS Glue como camada de metadados unificada. O Amazon Quick se conecta ao Athena para carregar os dados no SPICE (Motor de Cálculo Super-rápido, Paralelo e em Memória), onde alimenta dashboards interativos e agentes de chat com IA. Em paralelo, um Web Crawler indexa documentação não estruturada do TPC-H em uma Knowledge Base (Base de Conhecimento), que também é disponibilizada ao agente conversacional.

Três formatos de armazenamento no mesmo lakehouse

Um dos pontos mais instrutivos da arquitetura é a demonstração de três abordagens diferentes de armazenamento, todas consultáveis pelo mesmo Athena:

Tabela externa CSV

Utiliza o dataset de clientes do TPC-H diretamente de um bucket público do S3. Com tabelas externas, o Athena consulta os dados no local original sem movê-los — uma abordagem rápida e econômica para explorar dados brutos. O comando de criação no editor de queries do Athena é:

CREATE EXTERNAL TABLE IF NOT EXISTS blog_qs_athena_tpc_h_db_sql.customer_csv (
  C_CUSTKEY INT,
  C_NAME STRING,
  C_ADDRESS STRING,
  C_NATIONKEY INT,
  C_PHONE STRING,
  C_ACCTBAL DOUBLE,
  C_MKTSEGMENT STRING,
  C_COMMENT STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
STORED AS TEXTFILE
LOCATION 's3://redshift-downloads/TPC-H/2.18/100GB/customer/'
TBLPROPERTIES ('classification' = 'csv');

Tabela Apache Iceberg (Parquet)

O Apache Iceberg é um formato de tabela aberto que traz transações ACID, time travel e evolução de partições para o data lake — ideal para cargas de trabalho em produção. A arquitetura cria uma tabela Iceberg a partir dos dados de pedidos usando o comando CREATE TABLE AS SELECT (CTAS), particionada por data de pedido:

CREATE TABLE blog_qs_athena_tpc_h_db_sql.orders_iceberg
WITH (
  table_type = 'ICEBERG',
  format = 'PARQUET',
  is_external = false,
  partitioning = ARRAY['o_orderdate'],
  location = 's3://amzn-s3-demo-bucket/tpch_iceberg/orders/')
AS SELECT *
FROM blog_qs_athena_tpc_h_db_sql.orders_csv
WHERE O_ORDERDATE BETWEEN '1998-06-01' AND '1998-12-31';

Amazon S3 Tables

As Amazon S3 Tables são tabelas totalmente gerenciadas com suporte nativo ao Apache Iceberg. Elas eliminam a necessidade de gerenciar operações de manutenção como compactação e remoção de arquivos não referenciados. A criação também usa CTAS, desta vez apontando para o catálogo s3tablescatalog:

CREATE TABLE lineitem_csv_s3_table
WITH (
  format = 'PARQUET')
AS SELECT *
FROM AwsDataCatalog.blog_qs_athena_tpc_h_db_sql.lineitem_csv
WHERE CAST(L_SHIPDATE AS DATE) BETWEEN DATE('1998-06-01') AND DATE('1998-12-31');

Preparação dos dados no Amazon Quick

Com as três tabelas registradas e consultáveis no Athena, o próximo passo é conectá-las ao Amazon Quick. A conexão é feita por meio de uma única fonte de dados Athena — as três tabelas ficam acessíveis porque todas estão catalogadas no AWS Glue Data Catalog e acessíveis pelo mesmo workgroup do Athena.

Cada tabela vira um dataset separado no Quick, importado para o SPICE para garantir performance sub-segundo em dashboards e fluxos agênticos. Um ponto de atenção importante: as S3 Tables ficam em um catálogo AWS Glue não padrão (s3tablescatalog), o que significa que elas não aparecem no navegador visual de tabelas do Quick. Para criar o dataset dessa tabela, é necessário usar SQL customizado:

SELECT * FROM "s3tablescatalog/blog-qs-athena-tpc-h-db-sql-s3-table-mar-3"."blog_qs_athena_tpc_h_namespace"."lineitem_csv_s3_table"

Join entre os três datasets

O esquema TPC-H é um esquema estrela por design. Para unir as três tabelas, a abordagem recomendada é fazer o join diretamente no Athena via SQL customizado e ingerir o resultado unificado no SPICE como um único dataset desnormalizado. Isso delega o processamento ao Athena e elimina restrições de tamanho de tabelas secundárias no Quick:

SELECT
  c.c_custkey, c.c_name, c.c_mktsegment, c.c_nationkey,
  o.o_orderkey, o.o_orderdate, o.o_orderstatus, o.o_totalprice, o.o_orderpriority,
  l.l_linenumber, l.l_partkey, l.l_suppkey, l.l_quantity,
  l.l_extendedprice, l.l_discount, l.l_shipmode, l.l_returnflag
FROM "s3tablescatalog/blog-qs-athena-tpc-h-db-sql-s3-table-mar-3"."blog_qs_athena_tpc_h_namespace"."lineitem_csv_s3_table" l
INNER JOIN "blog_qs_athena_tpc_h_db_sql"."orders_iceberg" o
  ON l.l_orderkey = o.o_orderkey
INNER JOIN "blog_qs_athena_tpc_h_db_sql"."customer_csv" c
  ON o.o_custkey = c.c_custkey;

Camada de BI e IA conversacional

Topic e Dashboard com Amazon Q

Com o dataset unificado no SPICE, a arquitetura configura um Topic no Amazon Quick — a camada semântica que traduz nomes de colunas em conceitos de negócio. Quando um usuário pergunta “Qual foi a receita total no último trimestre por segmento de cliente?”, o Topic mapeia “receita” para l_extendedprice, “último trimestre” para um filtro em o_orderdate e “segmento de cliente” para c_mktsegment. Sem esse mapeamento, as consultas em linguagem natural retornam resultados genéricos ou incorretos.

O dashboard é construído usando o Amazon Q dentro do Quick, que permite criar visualizações a partir de prompts em linguagem natural como “Mostre um KPI de receita total” ou “Crie um gráfico de barras de receita por status de pedido”. Após a publicação, o dashboard embute uma barra de perguntas em linguagem natural para que os usuários façam perguntas adicionais sem sair da tela.

Knowledge Base e agente de chat

Em paralelo ao fluxo estruturado, a arquitetura configura uma Knowledge Base alimentada pela especificação oficial do TPC-H (documento PDF público). Um Web Crawler indexa esse conteúdo não estruturado, tornando-o pesquisável pelo agente de chat.

O agente é configurado dentro de um Space (Espaço) do Amazon Quick — a camada organizacional que agrupa Topic, Knowledge Base e Dashboard em um único contexto governado. A instrução de persona do agente define claramente seu escopo: responder perguntas sobre receita de pedidos, performance de fornecedores, precificação de itens e disponibilidade de inventário, sempre fundamentando as respostas nos dados do lakehouse TPC-H.

Na prática, quando um analista de negócio pergunta “Qual segmento de clientes gerou mais receita no mês passado, e o que significa ‘segmento de mercado’ no esquema TPC-H?”, o agente:

Consulta o Topic TPC-H Analytics para obter a receita por c_mktsegment filtrada ao último mês
Simultaneamente recupera a definição de c_mktsegment da Knowledge Base
Retorna uma resposta unificada: o ranking de receita com citação ao dataset SPICE, seguido da definição do campo com citação ao documento de especificação

Sem SQL. Sem navegação em dashboards. Sem ticket para o time de dados.

Permissões e governança

A arquitetura mantém governança corporativa em toda a cadeia. Se o AWS Lake Formation estiver habilitado, ele atua como a camada central de autorização, sobrescrevendo as permissões IAM padrão do S3. Nesse caso, as permissões precisam ser concedidas diretamente ao autor do Amazon Quick ou à role IAM no console do Lake Formation. Se o Lake Formation não estiver habilitado, as permissões são gerenciadas no nível da service role do Quick via controle de acesso IAM padrão.

Para S3 Tables especificamente, a service role do Quick requer uma política inline adicional glue:GetCatalog para acessar o catálogo não padrão s3tablescatalog. A referência completa está disponível na documentação Visualizando dados de S3 Tables com Amazon Quick.

Limpeza dos recursos

Após os testes, a AWS recomenda remover todos os artefatos criados para evitar custos desnecessários. O processo de limpeza envolve, na ordem:

Dropar tabelas e banco de dados via console do Athena
Remover o S3 Table bucket, namespace e tabela via AWS CLI, SDKs ou API REST do S3
Excluir o bucket S3 via console
No Amazon Quick: excluir o Chat Agent, o Space, o Dashboard, o Topic, a Knowledge Base, os Datasets e a fonte de dados, nessa ordem

Conclusão

A arquitetura demonstrada pela AWS mostra como é possível transformar um lakehouse complexo — com dados em múltiplos formatos e fontes — em uma interface conversacional acessível para usuários de negócio. A combinação de Amazon Athena para consulta serverless, AWS Glue para catálogo unificado, SPICE para performance em memória e os agentes de IA do Amazon Quick cria uma camada de self-service que mantém governança e escalabilidade corporativa.

Para equipes que buscam democratizar o acesso a dados sem abrir mão de segurança e controle, essa arquitetura de referência oferece um caminho concreto e reproduzível. A documentação de referência inclui tutoriais adicionais para casos de uso em B2B, receita, vendas, marketing e RH, além de guias aprofundados sobre permissões com Lake Formation.

Links úteis para aprofundamento:

Fonte

Unleashing Agentic AI Analytics on Amazon SageMaker with Amazon Athena and Amazon Quick (https://aws.amazon.com/blogs/machine-learning/unleashing-agentic-ai-analytics-on-amazon-sagemaker-with-amazon-athena-and-amazon-quick/)

IA Agêntica para Analytics com Amazon SageMaker, Athena e Amazon Quick

O problema que essa arquitetura resolve

Visão geral da arquitetura

Três formatos de armazenamento no mesmo lakehouse

Tabela externa CSV

Tabela Apache Iceberg (Parquet)

Amazon S3 Tables

Preparação dos dados no Amazon Quick

Join entre os três datasets

Camada de BI e IA conversacional

Topic e Dashboard com Amazon Q

Knowledge Base e agente de chat

Permissões e governança

Limpeza dos recursos

Conclusão

Fonte

Comments

Leave a Reply Cancel reply

More posts

Como garantir capacidade de GPU de curto prazo para cargas de ML com EC2 Capacity Blocks e SageMaker Training Plans

AWS conquista certificações SNI 27017, SNI 27018 e SNI 9001 na Região Ásia-Pacífico (Jacarta)

Agentes que transacionam: conheça o Amazon Bedrock AgentCore Payments, desenvolvido com Coinbase e Stripe

Superando desafios de sinal de recompensa: aprendizado por reforço com recompensas verificáveis e GRPO no SageMaker AI