O desafio de disponibilidade de modelos de IA em escala global
Modelos de IA generativa de última geração e infraestrutura de computação acelerada estão em alta demanda global. Isso cria um desafio real para equipes que precisam garantir disponibilidade contínua de modelos em suas aplicações, sem abrir mão dos requisitos de segurança e privacidade dos dados. Para endereçar esse problema, a AWS desenvolveu o recurso de Inferência entre Regiões (CRIS — Cross-Region Inference) no Amazon Bedrock, que roteia automaticamente as requisições de inferência entre múltiplas regiões AWS dentro de fronteiras geográficas predefinidas.
O resultado prático é que aplicações de IA generativa conseguem consumir capacidade distribuída geograficamente, tornando-se mais resilientes a picos de tráfego e indisponibilidades pontuais de modelos em regiões específicas. Neste artigo, a AWS explica como o CRIS funciona, com foco especial nos clientes europeus e nas implicações para conformidade com o Regulamento Geral de Proteção de Dados (GDPR — General Data Protection Regulation).
O que são perfis de inferência entre regiões
O CRIS é uma capacidade gerenciada do Amazon Bedrock que roteia requisições de inferência de modelos entre regiões AWS suportadas. Os perfis de inferência são recursos dentro do Bedrock que definem quais regiões podem receber essas requisições. Para entender como esse roteamento funciona, dois conceitos são fundamentais:
- Região de origem (Source Region): a região a partir da qual a requisição de API é feita, especificando o perfil de inferência.
- Região de destino (Destination Region): a região para a qual o Amazon Bedrock pode rotear a requisição a partir da origem.
O Amazon Bedrock disponibiliza perfis de inferência definidos pelo sistema, nomeados de acordo com o modelo e as regiões geográficas que suportam. Esses perfis têm escopo global ou geográfico, e a escolha entre eles impacta diretamente as obrigações regulatórias e de conformidade de cada cliente.
Inferência global
Os perfis de inferência global roteiam requisições de modelos para qualquer região comercial AWS suportada. Nesse modelo, os prompts de entrada são transmitidos para uma região de destino onde o modelo é executado, e as respostas geradas são retornadas à região de origem. Todo o tráfego entre regiões é criptografado e permanece dentro da rede segura da AWS — sem passar pela internet pública.
A região de destino é selecionada automaticamente para otimizar a capacidade disponível do modelo e minimizar a latência. Por usar todas as regiões suportadas disponíveis, aplicações que utilizam perfis globais ganham maior resiliência a eventuais gargalos de capacidade em horários de pico. Além disso, vários modelos estão disponíveis a um preço com desconto via CRIS global em comparação com invocações diretas na região ou via CRIS geográfico.
Inferência geográfica para a União Europeia
Os perfis de inferência geográfica (Geo CRIS) são perfis definidos pelo sistema que diferem dos globais: eles vinculam os modelos a uma geografia específica, servindo cópias do mesmo modelo a partir de diferentes regiões dentro daquele território. Para clientes europeus, a AWS criou os perfis EU CRIS, voltados especificamente para questões de residência de dados na União Europeia.
Com o EU CRIS, todas as regiões de destino ficam dentro da União Europeia. As regras de roteamento funcionam da seguinte forma:
- Requisições originadas de uma região dentro da UE só podem ser roteadas para outras regiões AWS também dentro da UE.
- Regiões como Zurique e Londres não são consideradas destinos para requisições de regiões dentro da UE ao usar EU CRIS.
- Requisições originadas de Londres só podem ser roteadas entre regiões EU disponíveis e a própria região de Londres.
- Requisições originadas de Zurique só podem ser roteadas entre regiões EU disponíveis e a própria região de Zurique.
- Para requisições originadas fora da UE usando EU CRIS, as otimizações consideram apenas a região de origem e as regiões da UE.
Um detalhe importante: os perfis de inferência geográfica são estáticos. Isso significa que a AWS não adiciona novas regiões a um perfil existente. Se uma nova região de destino precisar ser incluída em um perfil geográfico, o Amazon Bedrock publicará um novo perfil com um novo identificador (ID).
Segurança e controle no CRIS
Para invocar modelos via CRIS, as aplicações precisam indicar explicitamente no código qual perfil de inferência será utilizado, fornecendo o ID do perfil no lugar do ID direto do modelo. O exemplo abaixo, extraído do artigo original, mostra duas invocações do modelo Amazon Nova Lite — uma usando EU CRIS e outra usando CRIS global:
import boto3
import json
from botocore.exceptions import ClientError
bedrock_runtime = boto3.client("bedrock-runtime", region_name="eu-south-1") # Source Region: Milan
model_id = "eu.amazon.nova-2-lite-v1:0" # Amazon Nova Lite EU CRIS profile ID
# Request can be processed within available destination Regions in EU CRIS
response = bedrock_runtime.converse(modelId=model_id, messages=[...], additionalModelRequestFields={...})
model_id = "global.amazon.nova-2-lite-v1:0" # Amazon Nova Lite Global CRIS profile ID
# Request can be processed by any AWS Commercial Region
response = bedrock_runtime.converse(modelId=model_id, messages=[...], additionalModelRequestFields={...})
Do ponto de vista de controle de acesso, a AWS recomenda o uso do Gerenciamento de Identidade e Acesso da AWS (AWS IAM — Identity and Access Management) para definir quais aplicações, usuários e administradores têm permissão para invocar modelos ou perfis CRIS específicos no Amazon Bedrock. O IAM ajuda a aplicar o princípio do menor privilégio, controlando quem pode acessar dados na região de origem e evitando que conteúdos indesejados sejam incluídos nos prompts enviados às regiões de destino. O artigo Securing Amazon Bedrock cross-Region inference traz mais detalhes sobre como configurar perfis geográficos e globais com IAM.
Transparência e auditabilidade
Regulações de proteção de dados frequentemente exigem que os responsáveis pelo tratamento mantenham registros das atividades de processamento. Para atender a esse requisito, o Amazon Bedrock se integra a ferramentas nativas da AWS.
Com o AWS CloudTrail, é possível monitorar continuamente a atividade da conta AWS. O CloudTrail registra o histórico de chamadas de API, incluindo chamadas feitas pelo console, SDKs e ferramentas de linha de comando. No contexto do Amazon Bedrock, os metadados de toda chamada classificada como evento de gerenciamento (management event) são registrados por padrão — incluindo APIs de invocação de modelos como Converse e InvokeModel, mas apenas os metadados, não os payloads em si. Esses logs ficam acessíveis nos últimos 90 dias no Histórico de Eventos, filtrando pela fonte bedrock.amazonaws.com. Para retenção mais longa, é possível configurar o CloudTrail para armazenar esses eventos por períodos maiores.
Ao examinar eventos relevantes no CloudTrail, é possível identificar as regiões de origem e destino de cada invocação de modelo, com o campo inferenceRegion na seção additionalEventData indicando onde a requisição foi efetivamente processada.
Opcionalmente, os clientes podem habilitar o Registro de Invocação de Modelos (Model Invocation Logging), que coleta informações detalhadas sobre cada chamada na região de origem da conta, incluindo a requisição completa, a resposta e os metadados. Esses logs podem ser enviados para o Amazon CloudWatch Logs ou para o Amazon Simple Storage Service (Amazon S3). Por padrão, esse recurso fica desativado e precisa ser habilitado explicitamente.
Um ponto relevante: ao usar CRIS, o Amazon CloudWatch, o AWS CloudTrail e o Model Invocation Logging registram entradas de log somente na região de origem da conta AWS onde a requisição foi iniciada — independentemente de qual região de destino tenha processado a requisição. Isso simplifica o gerenciamento de monitoramento e mantém os requisitos de processamento local de dados.
Como verificar os perfis CRIS disponíveis
Para quem quiser explorar os perfis de sistema disponíveis, a AWS oferece três formas:
- Consultar a documentação oficial, que lista todos os perfis de inferência definidos pelo sistema e as regiões de origem e destino associadas.
- Navegar até a seção de Inferência entre Regiões no Console AWS para visualizar os perfis disponíveis a partir de uma região de origem específica.
- Usar os SDKs da AWS, como o Boto3, conforme o exemplo abaixo:
# pip install boto3
import boto3
region = "eu-central-1" # Frankfurt Region
bedrock = boto3.client('bedrock', region_name=region)
system_response = bedrock.list_inference_profiles(typeEquals='SYSTEM_DEFINED')
#https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/bedrock/client/list_inference_profiles.html
Conformidade com o GDPR e proteção de dados
Muitos clientes têm requisitos de processamento local de dados e precisam de transparência sobre onde suas informações são tratadas. Isso se aplica tanto aos perfis globais quanto aos geográficos.
A AWS destaca que clientes podem usar os serviços AWS para processar dados pessoais (conforme definição do GDPR) carregados em suas contas em conformidade com o GDPR. O Amazon Bedrock está entre os serviços no escopo do Código de Conduta de Proteção de Dados da CISPE (CISPE Data Protection Code of Conduct), que é o primeiro código pan-europeu de proteção de dados para provedores de infraestrutura em nuvem. Esse código foi aprovado pelo Comitê Europeu de Proteção de Dados (EDPB — European Data Protection Board) em maio de 2021 e formalmente adotado pela CNIL em junho de 2021.
Tanto os perfis CRIS globais quanto os geográficos oferecem flexibilidade para que os clientes escolham a abordagem que melhor se alinha às suas obrigações regulatórias e ao seu apetite por risco. A AWS mantém uma página de Recursos de Privacidade (Privacy Features) listando os serviços que envolvem transferência de dados de clientes. Para mais informações sobre transferências de dados entre UE e EUA, a empresa disponibiliza também uma atualização para clientes sobre o EU-US Privacy Shield e posts sobre o Adendo Suplementar ao Adendo de Processamento de Dados da AWS.
Conclusão
O CRIS no Amazon Bedrock resolve um problema concreto: permitir que aplicações de IA generativa acessem modelos que podem não estar disponíveis em sua região primária, aumentando a resiliência a picos de tráfego e limitações regionais de capacidade — sem abrir mão de segurança, privacidade e conformidade regulatória.
A escolha entre perfis globais e geográficos (como o EU CRIS) dá aos clientes controle sobre onde seus dados são processados, com ambas as opções alinhadas a regulações como o GDPR. Para dúvidas sobre cargas de trabalho de IA e Inferência entre Regiões, a AWS recomenda contato com o time de conta AWS. Para aprofundamento em programas de conformidade e segurança, a empresa disponibiliza o portal de Programas de Conformidade da AWS (AWS Compliance Programs).
Fonte
Unlocking AI flexibility in Europe: A guide to cross-region inference for EU data processing and model access (https://aws.amazon.com/blogs/machine-learning/unlocking-ai-flexibility-in-europe-a-guide-to-cross-region-inference-for-eu-data-processing-and-model-access/)
Leave a Reply