Processando Documentos Financeiros com o Amazon Bedrock Data Automation

O desafio de processar documentos financeiros em escala

Instituições financeiras lidam diariamente com milhares de documentos: extratos bancários, declarações de imposto de renda, ordens de compra, contratos de fornecedores. Cada um tem formato, estrutura e nomenclatura de campos próprios — o que torna extremamente difícil criar fluxos de automação usando apenas ferramentas tradicionais de Reconhecimento Óptico de Caracteres (OCR).

Para endereçar esse problema, a AWS disponibilizou o Amazon Bedrock Data Automation (BDA), um serviço que automatiza a extração, validação e análise de dados a partir de documentos. A diferença em relação ao OCR convencional está no uso de modelos de fundação, que conseguem:

  • Compreender o contexto do documento como um todo
  • Reconhecer relações entre diferentes seções
  • Extrair dados estruturados e acionáveis
  • Validar informações cruzando múltiplas fontes

Embora modelos de fundação como o Anthropic Claude já consigam extrair conteúdo de PDFs, o Amazon Bedrock Data Automation oferece extrações personalizadas com alta precisão e custo reduzido, além de recursos como ancoragem visual com pontuações de confiança para explicabilidade e mitigação integrada de alucinações.

Como o BDA funciona: blueprints como ponto central

O conceito principal do Amazon Bedrock Data Automation é o blueprint — um modelo de configuração que define como os dados devem ser extraídos de um determinado tipo de documento. Pense nele como um mapa que instrui o BDA sobre quais informações buscar e como organizá-las na saída.

Um blueprint especifica:

  • O tipo de documento sendo processado
  • Os campos de dados a serem extraídos
  • As regras de validação dos dados extraídos
  • A estrutura e o formato da saída

O serviço oferece dois tipos de blueprints: os de catálogo (pré-configurados pela AWS para tipos comuns de documentos) e os blueprints personalizados, que permitem às organizações criar padrões de extração adaptados às suas necessidades específicas. A saída pode ser exportada nos formatos JSON, CSV e dados brutos.

Imagem original — fonte: Aws

Pré-requisitos para começar

Para reproduzir os exemplos apresentados pela AWS, são necessários:

Para quem não está familiarizado com a criação de blueprints personalizados, a AWS disponibiliza instruções detalhadas na documentação do Amazon Bedrock.

Quatro tipos de documentos financeiros na prática

A AWS demonstrou a aplicação do BDA em quatro categorias de documentos financeiros, usando blueprints personalizados em cada caso. Vale destacar que, para extratos bancários e formulários W-2, o BDA já conta com blueprints de catálogo prontos para uso — os blueprints personalizados foram utilizados aqui para ilustrar como as organizações podem adaptar a extração às suas necessidades específicas de fluxo de trabalho.

1. Extratos bancários

Extratos bancários apresentam um desafio considerável: contêm dezenas de transações mensais, frequentemente distribuídas em várias páginas, com formatos e detalhes variados. Em muitos fluxos de trabalho, o que importa é capturar com precisão os dados de cada transação — data, valor, descrição e número de referência — para alimentar sistemas de contabilidade automatizados, como a categorização de transações em um razão contábil.

Para esse tipo de documento, o blueprint personalizado foi estruturado com um campo principal chamado Transactions, composto por um tipo customizado TRANSACTION_DETAILS contendo os campos: Date, Description, Debit (número) e Credit (número). O resultado da extração confirmou que o sistema capturou todas as transações com precisão, gerando um arquivo table.csv pronto para integração downstream.

Imagem original — fonte: Aws

2. Formulário W-2

O formulário W-2 é um documento fiscal norte-americano que reporta renda e impostos retidos para pessoas físicas ou jurídicas. Apesar de ter uma estrutura padronizada, ele apresenta complexidades específicas de extração que foram especialmente verificadas no experimento da AWS:

  • Não há agrupamento explícito entre informações de imposto federal e estadual no formulário, mas elas precisam ser processadas em conjunto — o blueprint resolve isso estruturando os dados de forma lógica na saída.
  • O campo Box 12 pode conter até 26 códigos para reportar diferentes tipos de remuneração e benefícios. É fundamental extrair código e valor como um par.
  • O campo Box 14 é de uso livre pelos empregadores, servindo para itens sem campo dedicado no W-2 — esses dados devem ser agrupados separadamente.

O blueprint customizado criado para o W-2 organizou os dados em sete tipos personalizados: EmployerInfo, EmployeeInfo, FederalWageInfo, FederalTaxInfo, StateTaxInfo, CodeAmount e FilingInfo. O resultado foi exportado em result.json, com todos os campos extraídos corretamente.

Imagem original — fonte: Aws

3. Formulário IRS 1099-B

O formulário 1099-B é um documento fiscal norte-americano que registra transações de valores mobiliários, operações intermediadas por corretoras e participações em bolsas de permuta. Por não ter um blueprint de catálogo disponível no BDA, ele é um exemplo claro de caso de uso para blueprints personalizados.

O blueprint criado para o 1099-B utilizou um tipo customizado TRANSACTION_DETAILS com os campos: security_description, quantity_sold, date_acquired, date_sold_or_disposed, proceeds, cost_or_other_basis, gainloss_amount e additional_information.

Um resultado relevante destacado pela AWS foi a capacidade do BDA de manter precisão contextual ao longo do documento: o sistema identificou e extraiu corretamente o ticker TSLA como descritor comum para um grupo de transações de ações, mesmo quando esse identificador aparecia como um descritor compartilhado entre múltiplas linhas — demonstrando a compreensão contextual do modelo, além da simples leitura de campos.

Imagem original — fonte: Aws

4. Contratos de fornecedores

Contratos de fornecedores são documentos altamente variáveis — cada empresa tem seus próprios requisitos operacionais e campos relevantes. Por isso, o blueprint precisa ser adaptado caso a caso.

No experimento da AWS, o blueprint criado para contratos de consultoria estruturou os dados em três tipos personalizados principais:

  • PARTICIPANT_DETAILS: nome do participante e representante autorizado
  • PARTICIPANT_REQUIREMENTS: recursos alocados, obrigações e restrições do participante
  • TERM_AND_TERMINATION: prazo do contrato e condições de rescisão

Além desses, o blueprint incluiu campos para data de vigência, período de duração e obrigações de confidencialidade. O sistema identificou e extraiu corretamente todos os elementos especificados no blueprint a partir do contrato de teste.

Considerações para uso em produção

Um ponto importante destacado pela AWS: um único blueprint geralmente é suficiente para um tipo específico de documento quando os campos extraídos são consistentes. No entanto, se os requisitos do fluxo de trabalho variarem ou os formatos dos documentos mudarem significativamente, pode ser necessário criar múltiplos blueprints para cobrir essas diferenças.

Como a saída do BDA é sempre JSON estruturado, é direto criar regras para processamento downstream — por exemplo, descartar totais quando o fluxo de trabalho precisa apenas categorizar transações individuais de débito e crédito para fins contábeis.

Para fluxos de trabalho em produção que envolvam informações sensíveis, a AWS recomenda seguir as diretrizes de cibersegurança e jurídicas da organização, verificando a conformidade com todas as regulamentações aplicáveis — incluindo o Regulamento Geral sobre a Proteção de Dados (RGPD/GDPR) na Europa e outras normas regionais ou setoriais relevantes.

Conclusão

O Amazon Bedrock Data Automation representa uma evolução significativa em relação ao OCR tradicional para o processamento de documentos financeiros. Ao combinar modelos de fundação com blueprints configuráveis, o serviço consegue extrair dados estruturados de documentos complexos — como extratos bancários, formulários fiscais e contratos — com precisão e de forma adaptável aos diferentes fluxos de trabalho de cada organização.

Para quem quiser se aprofundar, a AWS disponibiliza a documentação completa do Amazon Bedrock Data Automation com detalhes sobre implementação em ambientes produtivos.

Fonte

Process financial documents using Amazon Bedrock Data Automation (https://aws.amazon.com/blogs/machine-learning/process-financial-documents-using-amazon-bedrock-data-automation/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *