Escalando Inteligência Artificial na África do Sul com Inferência Global Cross-Region no Amazon Bedrock e Claude 4.5

Resolvendo desafios de escalabilidade em aplicações de IA

Construir aplicações de inteligência artificial com o Amazon Bedrock frequentemente apresenta desafios significativos relacionados ao throughput, impactando diretamente a capacidade de escala dos seus sistemas. A inferência global cross-region na região af-south-1 da AWS modifica esse cenário.

Agora é possível invocar modelos a partir da região de Cape Town enquanto o Amazon Bedrock automaticamente roteia requisições para regiões que possuem capacidade disponível. O resultado é que suas aplicações mantêm tempos de resposta consistentes, seus usuários experimentam confiabilidade, e seus logs centralizados no Amazon CloudWatch e AWS CloudTrail permanecem organizados em um único local.

Acesso aos modelos Claude 4.5 com maior throughput

A inferência cross-region global com os modelos Anthropic Claude Sonnet 4.5, Haiku 4.5 e Opus 4.5 no Amazon Bedrock agora está disponível na região de Cape Town. Clientes sul-africanos podem utilizar perfis de inferência global para acessar esses modelos com throughput melhorado e maior resiliência.

A inferência cross-region global roteia requisições para regiões comerciais suportadas em todo o mundo, otimizando recursos e possibilitando maior throughput — particularmente valioso durante períodos de pico. O recurso é compatível com cache de prompts do Amazon Bedrock, inferência em lote, Guardrails do Amazon Bedrock, Bases de Conhecimento do Amazon Bedrock e muito mais.

Compreendendo a inferência cross-region

A inferência cross-region é um recurso poderoso que organizações podem utilizar para distribuir processamento de inferência perfeitamente entre múltiplas regiões. Essa capacidade permite alcançar maior throughput ao construir em escala, permitindo que aplicações de IA generativa permaneçam responsivas e confiáveis mesmo sob carga pesada.

Um perfil de inferência no Amazon Bedrock define um modelo de fundação (FM) e uma ou mais regiões para as quais pode rotear requisições de invocação. Os perfis de inferência funcionam em torno de dois conceitos principais:

  • Região de Origem: A região de onde a requisição de API é feita
  • Região de Destino: Uma região para a qual o Amazon Bedrock pode rotear a requisição para inferência

A inferência cross-region opera através da rede segura da AWS com criptografia de ponta a ponta tanto para dados em trânsito quanto em repouso. Quando um cliente submete uma requisição de inferência a partir de uma região de origem, a inferência cross-region roteia inteligentemente a requisição para uma das regiões de destino configuradas no perfil de inferência através da rede gerenciada pelo Bedrock.

Uma distinção importante: enquanto o processamento de inferência (o cálculo transitório) pode ocorrer em outra região, dados em repouso — incluindo logs, bases de conhecimento e configurações armazenadas — foram projetados para permanecer em sua região de origem. As requisições viajam pela Rede Global da AWS gerenciada pelo Bedrock. Os dados transmitidos durante a inferência cross-region são criptografados e permanecem dentro da rede segura da AWS.

Dois modelos de inferência cross-region

A AWS oferece dois tipos de perfis de inferência cross-region:

  • Inferência cross-region geográfica: O Amazon Bedrock seleciona automaticamente a região comercial ótima dentro de uma geografia definida (Estados Unidos, Europa, Austrália e Japão) para processar sua requisição de inferência. Recomendado para casos de uso com requisitos de residência de dados.
  • Inferência cross-region global: A inferência cross-region global aprimoura ainda mais esse recurso ao permitir o roteamento de requisições de inferência para regiões comerciais suportadas em todo o mundo, otimizando recursos disponíveis e possibilitando maior throughput de modelo. Recomendado para casos de uso sem requisitos rígidos de residência de dados.

Monitoramento e registro centralizado

Com a inferência cross-region global a partir de af-south-1, suas requisições podem ser processadas em qualquer lugar na infraestrutura global da AWS. No entanto, seus logs do Amazon CloudWatch e AWS CloudTrail são registrados em af-south-1, simplificando o monitoramento ao manter seus registros em um único local.

Segurança de dados e conformidade regulatória

Segurança e conformidade representam uma responsabilidade compartilhada entre a AWS e cada cliente. A inferência cross-region global foi projetada para manter a segurança de dados. Dados transmitidos durante a inferência cross-region são criptografados pelo Amazon Bedrock e permanecem dentro da rede segura da AWS.

Informações sensíveis permanecem protegidas durante todo o processo de inferência, independentemente da região que processa a requisição. Os clientes são responsáveis por configurar suas aplicações e políticas de Gerenciamento de Identidade e Acesso da AWS (IAM) apropriadamente e por avaliar se a inferência cross-region global atende seus requisitos específicos de segurança e conformidade.

Como a inferência cross-region global roteia requisições para regiões comerciais suportadas mundialmente, você deve avaliar se essa abordagem está alinhada com suas obrigações regulatórias, incluindo a Lei de Proteção de Informações Pessoais (POPIA) e outros requisitos específicos do setor. Recomenda-se consultar suas equipes de compliance e jurídica para determinar a abordagem apropriada para seus casos de uso específicos.

Implementando a inferência cross-region global

Para utilizar a inferência cross-region global com modelos Claude 4.5, desenvolvedores devem completar os seguintes passos principais:

  • Usar o ID do perfil de inferência global — Ao fazer chamadas de API para o Amazon Bedrock, especifique o ID do perfil de inferência do modelo Claude 4.5 global (por exemplo, global.anthropic.claude-opus-4-5-20251101-v1:0). Funciona com as APIs InvokeModel e Converse.
  • Configurar permissões IAM — Conceda permissões IAM para acessar o perfil de inferência e FMs nas regiões de destino potenciais. Na próxima seção, fornecemos mais detalhes. Você também pode consultar mais informações sobre pré-requisitos para perfis de inferência.

Implementar a inferência cross-region global com modelos Claude 4.5 é simples, exigindo apenas algumas alterações no código de sua aplicação existente. O seguinte é um exemplo de como atualizar seu código em Python:

import boto3
import json

# Connect to Bedrock from your deployed region
bedrock = boto3.client('bedrock-runtime', region_name='af-south-1')

# Use global cross-Region inference inference profile for Opus 4.5 model
model_id = "global.anthropic.claude-opus-4-5-20251101-v1:0"

# Make request - Global CRIS automatically routes to optimal AWS Region globally
response = bedrock.converse(
    messages=[
        {
            "role": "user",
            "content": [{"text": "Explain cloud computing in 2 sentences."}]
        }
    ],
    modelId=model_id,
)

print("Response:", response['output']['message']['content'][0]['text'])
print("Token usage:", response['usage'])
print("Total tokens:", response['usage']['totalTokens'])

Se estiver utilizando a API InvokeModel do Amazon Bedrock, você pode rapidamente alternar entre diferentes modelos mudando o ID do modelo, como mostrado em exemplos de código para invocar modelos.

Requisitos de política IAM para inferência cross-region global

A inferência cross-region global requer três permissões específicas porque o mecanismo de roteamento se estende por múltiplos escopos: seu perfil de inferência regional, a definição de FM em sua região de origem e a definição de FM em nível global. Sem essas três, o serviço não consegue resolver o modelo, validar seu acesso e rotear requisições entre regiões.

O acesso a modelos Anthropic requer uma submissão de caso de uso antes de invocar um modelo. Essa submissão pode ser completada no nível da conta individual ou centralmente através da conta de gerenciamento da organização. Para submeter seu caso de uso, use a API PutUseCaseForModelAccess ou selecione um modelo Anthropic no catálogo de modelos no Console de Gerenciamento da AWS para Amazon Bedrock.

Permissões do AWS Marketplace são necessárias para ativar modelos e podem ser limitadas a IDs de produto específicos quando suportado. A seguinte política IAM fornece controle granular:

{
  "Version": "2012-10-17",
  "Statement": [{
    "Sid": "GrantGlobalCrisInferenceProfileRegionAccess",
    "Effect": "Allow",
    "Action": "bedrock:InvokeModel",
    "Resource": [
      "arn:aws:bedrock:af-south-1::inference-profile/global."
    ],
    "Condition": {
      "StringEquals": {
        "aws:RequestedRegion": "af-south-1"
      }
    }
  }, {
    "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess",
    "Effect": "Allow",
    "Action": "bedrock:InvokeModel",
    "Resource": [
      "arn:aws:bedrock:af-south-1::foundation-model/"
    ],
    "Condition": {
      "StringEquals": {
        "aws:RequestedRegion": "af-south-1",
        "bedrock:InferenceProfileArn": "arn:aws:bedrock:af-south-1::inference-profile/global."
      }
    }
  }, {
    "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess",
    "Effect": "Allow",
    "Action": "bedrock:InvokeModel",
    "Resource": [
      "arn:aws:bedrock:::foundation-model/ "
    ],
    "Condition": {
      "StringEquals": {
        "aws:RequestedRegion": "unspecified",
        "bedrock:InferenceProfileArn": "arn:aws:bedrock:af-south-1::inference-profile/global."
      }
    }
  } ]
}

A política compreende três partes. A primeira declaração concede acesso ao perfil de inferência regional em af-south-1, para que usuários possam invocar o perfil de inferência cross-region global especificado a partir da África do Sul. A segunda declaração fornece acesso ao recurso regional de FM, que o serviço precisa para compreender qual modelo está sendo solicitado no contexto regional. A terceira declaração concede acesso ao recurso de FM global, que permite que o roteamento cross-region funcione.

Ao implementar essas políticas, verifique que os três ARNs estejam inclusos:

  • O ARN do perfil de inferência regional segue o padrão arn:aws:bedrock:af-south-1::inference-profile/global.. Isso concede acesso ao perfil de inferência global em sua região de origem.
  • O FM regional usa arn:aws:bedrock:af-south-1::foundation-model/. Isso concede acesso à definição de modelo em af-south-1.
  • O FM global requer arn:aws:bedrock:::foundation-model/. Isso concede acesso ao modelo entre regiões — observe que esse ARN intencionalmente omite os segmentos de região e conta para permitir roteamento cross-region.

Nota importante sobre Políticas de Controle de Serviço (SCPs): Se sua organização usa SCPs específicas por região, verifique que "aws:RequestedRegion": "unspecified" não está incluída na lista de regiões negadas, porque requisições de inferência cross-region global utilizam esse valor de região. Organizações que utilizam SCPs restritivas que negam múltiplas regiões exceto aquelas especificamente aprovadas precisarão permitir explicitamente esse valor para habilitar a funcionalidade de inferência cross-region global.

Se sua organização determinar que a inferência cross-region global não é apropriada para certos cargas de trabalho por requisitos de residência de dados ou conformidade, você pode desabilitá-la de duas maneiras:

  • Remover permissões IAM: Remova uma ou mais das três declarações de política IAM necessárias. Como a inferência cross-region global requer as três declarações para funcionar, remover uma delas causa requisições ao perfil de inferência global retornem um erro de acesso negado.
  • Implementar uma política de negação explícita: Crie uma política de negação que segmente especificamente perfis de inferência cross-region global usando a condição "aws:RequestedRegion": "unspecified". Essa abordagem documenta claramente sua intenção de segurança, e a negação explícita tem precedência mesmo se políticas de permissão forem acidentalmente adicionadas depois.

Solicitando aumento de limites para inferência cross-region global

Ao utilizar perfis de inferência cross-region global a partir de af-south-1, você pode solicitar aumentos de cota através do Console de Cotas de Serviço da AWS. Como esse é um limite global, requisições devem ser feitas em sua região de origem (af-south-1).

Antes de solicitar um aumento, calcule sua cota necessária utilizando a taxa de redução para seu modelo. Para Sonnet 4.5 e Haiku 4.5, tokens de saída têm uma taxa de redução de cinco vezes — cada token de saída consome 5 tokens de sua cota — enquanto tokens de entrada mantêm uma proporção de 1:1. Seu consumo total de tokens por requisição é:

Contagem de tokens de entrada + Tokens de entrada de escrita em cache + (Contagem de tokens de saída x Taxa de redução)

Para solicitar um aumento de limite:

  • Faça login no Console de Cotas de Serviço da AWS em af-south-1
  • No painel de navegação, escolha Serviços da AWS
  • Localize e escolha Amazon Bedrock
  • Pesquise pelas cotas específicas de inferência cross-region global (por exemplo, Tokens de inferência de modelo cross-region global por minuto para Claude Sonnet 4.5 V1)
  • Selecione a cota e escolha Solicitar aumento no nível da conta
  • Digite seu valor de cota desejado e envie a solicitação

Próximos passos

A inferência cross-region global também traz a família de modelos Claude 4.5 para a região de Cape Town, oferecendo acesso às mesmas capacidades disponíveis em outras regiões. Você pode construir com Sonnet 4.5, Haiku 4.5 e Opus 4.5 a partir de sua região local enquanto a infraestrutura de roteamento gerencia a distribuição transparentemente.

Para começar, atualize suas aplicações para utilizar o ID do perfil de inferência global, configure permissões IAM apropriadas, e monitore o desempenho conforme suas aplicações utilizam a infraestrutura global da AWS. Visite o console do Amazon Bedrock e explore como a inferência cross-region global pode aprimorar suas aplicações de IA.

Para mais informações, consulte os seguintes recursos:

Fonte

Scale AI in South Africa using Amazon Bedrock global cross-Region inference with Anthropic Claude 4.5 models (https://aws.amazon.com/blogs/machine-learning/scale-ai-in-south-africa-using-amazon-bedrock-global-cross-region-inference-with-anthropic-claude-4-5-models/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *