Detecção e Redação de Dados Pessoais com Amazon Bedrock: Automação e Proteção

O Desafio da Proteção de Dados Pessoais em Larga Escala

Organizações recebem constantemente volumes significativos de informações sensíveis dos clientes através de diferentes canais de comunicação. Proteger dados pessoalmente identificáveis (DPI) — como números de seguro social, habilitação e telefone — tornou-se essencial para cumprir regulamentações de privacidade e manter a confiança dos usuários.

O problema é que revisar e remover manualmente esses dados é demorado, propenso a erros e não se adapta bem quando os volumes crescem. Além disso, informações sensíveis aparecem em formatos variados: textos de emails, documentos em anexos, imagens digitalizadas. Soluções tradicionais exigem ferramentas separadas para cada tipo de conteúdo, criando inconsistências na redação e deixando brechas na segurança. Essa fragmentação aumenta a complexidade operacional e o risco de exposição acidental de dados.

Uma Solução Integrada para Redação Automatizada

A AWS apresentou uma abordagem que centraliza a detecção e remoção de dados pessoais em texto e imagens através de Amazon Bedrock Data Automation e Amazon Bedrock Guardrails. A solução foi demonstrada em um cenário prático: o processamento automatizado de emails e anexos em altos volumes.

Capacidades Principais da Solução

O sistema oferece três capacidades fundamentais:

  • Detecção e redação automatizadas: Processa simultaneamente o conteúdo de emails e arquivos anexados, garantindo que dados sensíveis sejam protegidos de forma consistente independentemente do formato.
  • Fluxos de trabalho mais seguros: As comunicações processadas são criptografadas, armazenadas com controles de acesso apropriados e acompanhadas por um registro de auditoria completo.
  • Interface para usuários autorizados: Uma aplicação baseada na web permite que o pessoal autorizado gerencie e revise as comunicações de forma mais segura, com recursos como categorização automática de emails e gerenciamento customizável de pastas.

Essa unificação ajuda as organizações a atender requisitos de conformidade com privacidade enquanto simplifica seus fluxos de trabalho de comunicação.

Como a Solução Funciona

Arquitetura Geral

A solução articula-se em torno de dois componentes principais: um fluxo de processamento de backend e uma interface de usuário frontend. AWS Lambda e Amazon EventBridge orquestram todo o processo.

Fluxo de Processamento Passo a Passo

O workflow segue esta sequência:

  • Um email é enviado para um servidor de email hospedado em Amazon Simple Email Service (SES). Como alternativa, os usuários podem fazer upload direto de emails e anexos para um bucket de armazenamento inicial no Amazon S3.
  • Uma notificação de evento do S3 dispara a função Lambda inicial de processamento, que gera um ID único de caso e cria um registro de rastreamento no Amazon DynamoDB.
  • Lambda extrai o corpo do email e os anexos, armazenando-os em um bucket de email bruto e invocando então o Bedrock Data Automation para extrair texto dos documentos e o Bedrock Guardrails para detectar e remover dados pessoais. O conteúdo reduzido é armazenado em outro bucket do S3.
  • Tabelas DynamoDB são atualizadas com metadados de mensagens, emails e regras de filtragem.
  • Um agendador do EventBridge executa uma função Lambda de “Motor de Regras” em intervalos periódicos, categorizando emails não processados em pastas conforme critérios de regras ativas.
  • Usuários acessam a interface web opcional através do Amazon API Gateway, que gerencia requisições e fornece a interface via hospedagem estática no S3.
  • Opcionalmente, Amazon CloudWatch e AWS CloudTrail fornecem visibilidade, enquanto o Amazon Simple Notification Service entrega alertas em tempo real sobre falhas.

Implementação e Configuração

Pré-requisitos

Antes de começar, certifique-se de possuir:

Requisitos de Infraestrutura

Verifique que existe uma nuvem privada virtual (VPC) com três subnets privadas sem acesso à internet. Todos os stacks do AWS CloudFormation devem ser implantados na mesma conta AWS.

Stacks do CloudFormation

A solução contém três stacks (dois obrigatórios, um opcional):

  • S3Stack: Provisiona buckets do S3 para armazenamento bruto e reduzido com políticas de ciclo de vida automático, uma tabela DynamoDB para rastreamento de metadados com TTL e índices secundários globais, grupos de segurança VPC, e funções de Gerenciamento de Identidade e Acesso (IAM) com permissões abrangentes.
  • ConsumerStack: Provisiona projetos Bedrock Data Automation para extração de texto, Bedrock Guardrails para anonimizar dados pessoais, funções Lambda para processamento, tópicos Amazon Simple Notification Service (SNS) para notificações, e regras de recebimento Amazon SES.
  • PortalStack (opcional): Oferece interface web com API Gateway regional, tabelas DynamoDB, e buckets S3 para ativos estáticos.

Configuração do Amazon SES (Opcional)

Se usando Amazon SES, é necessário:

Processo de Implantação

Execute os seguintes comandos:

git clone https://github.com/aws-samples/sample-bda-redaction.git
cd sample-bda-redaction/infra/
python3 -m venv .venv
. .venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt
cp context.json.example context.json

Atualize o arquivo context.json com as opções corretas, incluindo ID da VPC, nomes de buckets e prefixo de recursos. Então, execute:

cdk bootstrap
JSII_DEPRECATED=quiet JSII_SILENCE_WARNING_UNTESTED_NODE_VERSION=quiet cdk synth --no-notices
JSII_DEPRECATED=quiet JSII_SILENCE_WARNING_UNTESTED_NODE_VERSION=quiet cdk deploy <>-S3Stack <>-ConsumerStack --no-notices

A implantação inicial leva aproximadamente 10 minutos.

Testes e Validação

Teste com Amazon SES

Após a implantação, ative o conjunto de regras de recebimento do SES e envie um email para o endereço verificado. O progresso pode ser monitorado na tabela DynamoDB. Cada email recebe um ID de caso único. Após conclusão, o email reduzido estará em s3://<>/redacted/<>/<>/.

Teste sem Amazon SES

Alternativamente, faça upload direto de um arquivo de email para o bucket bruto usando a CLI do AWS. Um email de exemplo está disponível no repositório.

Interface Web (Opcional)

O portal é uma interface React que permite visualizar emails processados e seus anexos reduzidos. Requer TypeScript, Node v18, e NPM v9.8 ou superior.

Para implantar o portal, navegue até a raiz do diretório de infraestrutura e execute:

JSII_DEPRECATED=quiet JSII_SILENCE_WARNING_UNTESTED_NODE_VERSION=quiet cdk deploy <>-PortalStack --no-notices

Crie um arquivo .env com as variáveis de ambiente necessárias (URL do API Gateway, caminhos base e de API), execute npm install e npm run build, e sincronize os arquivos gerados para o bucket S3 designado.

Limpeza de Recursos

Para evitar cobranças futuras, delete o conteúdo dos buckets S3, desative as regras do SES, remova os stacks CloudFormation na ordem inversa e limpe grupos de logs do CloudWatch. Se usar versionamento do S3, remova também versões antigas usando comandos CLI específicos.

Considerações Técnicas Importantes

Ao usar esta solução, observe que o Bedrock Data Automation possui restrições de processamento: suporta PDF, JPEG e PNG com tamanho máximo de 200 MB via console (500 MB via API) e documentos individuais não podem exceder 20 páginas sem divisão de documento habilitada.

Para produção, implemente controles de acesso apropriados ao portal via API Gateway.

Benefícios da Solução

A automatização centralizada oferece eficiência operacional reduzindo revisão manual, escalabilidade para lidar com volumes crescentes, conformidade regulatória aprimorada e segurança consistente. A modularidade da solução permite futura integração com serviços AWS adicionais, refinamento de regras de detecção e suporte a formatos e idiomas diferentes.

Próximos Passos

A CloudTroop recomenda explorar o repositório GitHub fornecido para compreender a implementação completa e adaptá-la às necessidades organizacionais. O código está disponível para que equipes construam uma solução robusta de proteção de dados alinhada com requisitos comerciais e regulatórios em evolução.

Fonte

Detect and redact personally identifiable information using Amazon Bedrock Data Automation and Guardrails (https://aws.amazon.com/blogs/machine-learning/detect-and-redact-personally-identifiable-information-using-amazon-bedrock-data-automation-and-guardrails/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *