AWS anuncia suporte a vetores de exclusão e linhagem de registros do Apache Iceberg V3

Novos recursos do Iceberg V3 na AWS

A AWS anunciou o suporte aos vetores de exclusão e à linhagem de registros conforme definido na especificação Apache Iceberg Version 3 (V3). Esses novos recursos chegam aos serviços Apache Spark no Amazon EMR 7.12, AWS Glue, notebooks Amazon SageMaker, Amazon S3 Tables e ao AWS Glue Data Catalog.

O que são vetores de exclusão?

Os vetores de exclusão são arquivos otimizados de exclusão que aceleram significativamente os pipelines de dados e reduzem os custos associados à compactação de dados. Em vez de reescrever dados inteiros durante operações de delete, esse mecanismo permite marcar registros como deletados de forma mais eficiente, especialmente em cenários onde grandes volumes de dados precisam ser modificados.

Entendendo a linhagem de registros

A linhagem de registros funciona adicionando campos de metadados a cada registro, permitindo rastrear mudanças com uma consulta SQL simples. Isso elimina a necessidade computacional cara de identificar pequenas alterações em tabelas grandes, tornando muito mais prático auditar e monitorar quais registros foram modificados.

Benefícios para data lakes em escala

Juntos, esses recursos do Iceberg V3 ajudam organizações a construir data lakes em escala petabyte com desempenho aprimorado para modificações de dados. A combinação reduz custos operacionais e oferece funcionalidades mais robustas para rastreamento de mudanças de forma nativa.

Como começar

Para criar novas tabelas V3, configure a propriedade de tabela como format-version = 3 no comando CREATE TABLE usando Spark ou um notebook SageMaker. Para atualizar tabelas existentes, simplesmente atualize a propriedade de tabela nos metadados com a nova versão de formato. Após essa atualização, os mecanismos de query da AWS que suportam V3 começarão automaticamente a utilizar vetores de exclusão e linhagem de registros.

Disponibilidade

Os recursos de vetores de exclusão e linhagem de registros do Iceberg V3 estão disponíveis em todas as regiões AWS onde cada serviço respectivo — Amazon EMR, AWS Glue, notebooks SageMaker, S3 Tables e AWS Glue Data Catalog — é oferecido.

Saiba mais

Para aprofundar seu conhecimento sobre o suporte da AWS ao Iceberg V3, consulte a documentação sobre Apache Iceberg V3 na AWS e leia o artigo detalhado sobre aceleração de operações em data lakes com essas novas capacidades.

Fonte

AWS announces support for Apache Iceberg V3 deletion vectors and row lineage (https://aws.amazon.com/about-aws/whats-new/2025/11/aws-apache-iceberg-v3-deletion-vectors-row-lineage)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *