Blog

Como garantir capacidade de GPU de curto prazo para cargas de ML com EC2 Capacity Blocks e SageMaker Training Plans
O problema de acesso a GPUs na nuvem

À medida que empresas de todos os portes adotam cargas de trabalho de aprendizado de máquina (ML) — treinamento, ajuste fino e inferência —, a demanda por capacidade de GPU ultrapassou a oferta disponível no mercado, tornando as GPUs um recurso escasso. Isso cria um desafio real para quem precisa de acesso confiável a recursos de computação acelerada.

Uma alternativa comum é criar reservas de capacidade sob demanda (ODCRs). No entanto, as ODCRs são mais adequadas para cargas planejadas e estáveis. Para instâncias GPU — especialmente as do tipo P — a disponibilidade de ODCR de curto prazo costuma ser limitada. Sem um contrato de longo prazo, as ODCRs são cobradas no preço sob demanda, sem nenhuma vantagem de custo. Isso as torna inadequadas para workloads exploratórios, testes pontuais, avaliações ou eventos com data definida.

A AWS publicou um guia detalhando como usar o Amazon EC2 Capacity Blocks for ML e os Amazon SageMaker Training Plans para garantir capacidade GPU reservada em janelas de tempo específicas — seja para testes de carga, validação de modelos, workshops ou preparação de capacidade de inferência antes de um lançamento.

Opções de acesso a GPU de curto prazo na AWS

Existem diferentes caminhos para acessar capacidade GPU na AWS. Cada um tem trade-offs claros entre disponibilidade, custo e controle.

Instâncias sob demanda

A opção mais simples: se houver capacidade disponível na região no momento do lançamento, você já começa a usar sem nenhum compromisso prévio. Funciona bem para experimentos pontuais e tarefas de desenvolvimento. O problema é que a disponibilidade depende da oferta regional e pode mudar rapidamente. Se você pausar ou encerrar uma instância, pode não conseguir reacquirir a mesma capacidade depois — o que frequentemente leva equipes a manter instâncias rodando mais tempo do que o necessário, aumentando o custo.

Instâncias Spot

Instâncias Spot podem reduzir os custos de computação GPU em até 90%, mas trocam economia por incerteza de disponibilidade. As instâncias podem ser interrompidas quando o Amazon EC2 precisar da capacidade de volta. São adequadas para workloads que toleram interrupção: treinamentos distribuídos com checkpoints periódicos, inferência em lote com possibilidade de reprocessamento e ambientes de workshop projetados para lidar com capacidade parcial.

Amazon EC2 Capacity Blocks for ML

O Amazon EC2 Capacity Blocks for ML reserva capacidade GPU para uma janela de tempo específica, garantindo que as instâncias estarão disponíveis quando você precisar delas. Diferente das ODCRs, os Capacity Blocks são totalmente self-service e oferecem melhor disponibilidade de curto prazo para instâncias GPU, com desconto de 40 a 50% em relação ao preço sob demanda.

Com os Capacity Blocks, é possível:
- Reservar uma data de início com até oito semanas de antecedência
- Escolher durações de 1 a 14 dias (em incrementos de 1 dia) ou de 15 a 182 dias (em incrementos de 7 dias)
- Configurar até 64 instâncias por Capacity Block
- Configurar até 256 instâncias distribuídas em múltiplos Capacity Blocks em contas de uma mesma AWS Organizations em uma data específica (mínimo de quatro blocos para atingir esse limite)
Organizações podem comprar Capacity Blocks e provisioná-los em múltiplas contas, permitindo que diferentes workloads acessem um pool de capacidade reservada sem custo adicional.

Em caso de falha de hardware durante a reserva, é possível encerrar a instância afetada e iniciar uma substituta dentro do mesmo Capacity Block. O sistema devolve o slot de capacidade reservada após aproximadamente 10 minutos de limpeza. A AWS mantém um buffer interno dentro de cada bloco para suportar esse relançamento sem custo adicional.

Limitações importantes dos Capacity Blocks:
- Suportam apenas famílias de instâncias selecionadas, como P5, Trn1 e Trn2 — não cobrem todos os tipos de instância GPU
- Não é possível reservar instâncias gerenciadas pelo SageMaker, como ml.p4dn ou ml.p5
- Não podem ser compartilhados nem usados diretamente com o Amazon SageMaker
- Não podem ser movidos ou divididos
- UltraServer Capacity Blocks ficam restritos à conta onde foram adquiridos e não podem ser compartilhados entre contas ou dentro de uma AWS Organization
Amazon SageMaker Training Plans

Os Amazon SageMaker Training Plans permitem reservar capacidade GPU para workloads gerenciados pelo ambiente do SageMaker AI — incluindo jobs de treinamento, clusters HyperPod e inferência. Eles não são intercambiáveis com os EC2 Capacity Blocks.

Com os Training Plans, é possível:
- Agendar reservas para instâncias GPU específicas e durações definidas
- Acessar a capacidade sem gerenciar a infraestrutura subjacente
- Usar opções de computação acelerada, incluindo as GPUs NVIDIA mais recentes e os aceleradores AWS Trainium
Instâncias do tipo G (exceto G6) não são suportadas atualmente pelos SageMaker Training Plans. Para instâncias G6, é necessário contatar o time de conta da AWS. Para informações detalhadas sobre tipos de instância suportados por região, durações e opções de quantidade, consulte a documentação de tipos de instâncias, regiões e preços.

Os SageMaker Training Plans se aplicam a:
Essa é a escolha certa quando o objetivo é que o SageMaker AI gerencie o provisionamento, o escalonamento e o ciclo de vida das instâncias, enquanto a capacidade reservada fica garantida durante uma janela definida.

Como escolher a opção certa

Ao planejar a estratégia de GPU de curto prazo, a AWS recomenda avaliar três fatores:
- Disponibilidade: da capacidade sob demanda à capacidade reservada
- Modelo de custo: preço sob demanda ou compromisso antecipado com preços menores que o on-demand
- Ambiente do workload: acesso direto ao EC2 versus ambiente gerenciado pelo SageMaker
A lógica de decisão segue uma progressão do menos restritivo para o mais restritivo:
1. Defina o modelo de infraestrutura: se você precisa de controle total sobre o sistema operacional, rede e orquestração, use o Amazon EC2. Se preferir um serviço gerenciado que cuide do provisionamento e das operações, use o SageMaker AI.
2. Comece com capacidade sob demanda: sem compromisso prévio, início imediato se houver capacidade disponível. Se o lançamento falhar, tente outra região ou ajuste o horário de início para períodos de menor demanda. Instâncias Spot podem complementar workloads que toleram interrupção.
3. Use capacidade reservada quando a certeza for crítica: se o workload precisa iniciar em um horário específico ou se o prazo de entrega depende do acesso garantido à GPU, reserve com antecedência. Para workloads no EC2, use Capacity Blocks. Para workloads no SageMaker, use Training Plans.
Para implantações em produção ou eventos de grande escala que exigem capacidade GPU significativa, a recomendação é iniciar o planejamento com pelo menos três semanas de antecedência e trabalhar com o time de conta da AWS para desenvolver uma estratégia de capacidade adequada ao prazo.

Considerações de custo

Os Capacity Blocks for ML exigem pagamento antecipado e oferecem taxas horárias de 40 a 50% menores em comparação com o preço sob demanda. Como referência, na região US East (N. Virginia), a instância p5.48xlarge custa $34,608/hora com Capacity Blocks versus $55,04/hora no modelo sob demanda.

Os SageMaker Training Plans são precificados entre 70 e 75% abaixo das taxas sob demanda. O pagamento é feito integralmente no momento da reserva. A AWS atualiza os preços periodicamente com base em tendências de oferta e demanda — você paga o preço vigente no momento da reserva, mesmo que o plano comece depois de uma atualização de preços.

Um ponto de atenção: se as instâncias não rodarem continuamente durante todo o período reservado, o custo total da reserva pode superar o custo sob demanda. A avaliação deve levar em conta o tempo real de execução do workload.

Todos os valores de preço mencionados são baseados nos preços públicos da AWS na data de publicação do artigo original e estão sujeitos a alterações. Para os valores mais atualizados, consulte a página de preços do Amazon EC2 e a página de preços do SageMaker AI.

Implementação prática: reservando capacidade GPU para inferência com SageMaker Training Plans

A seguir, a AWS detalha como reservar e usar capacidade GPU para workloads de inferência gerenciados pelos SageMaker Training Plans. É importante destacar que as reservas são específicas para o recurso-alvo selecionado: um plano comprado para inferência não pode ser usado para jobs de treinamento ou clusters HyperPod, e vice-versa.

Para reservas voltadas a jobs de treinamento ou clusters HyperPod, consulte a documentação de criação de training plans para jobs de treinamento ou clusters HyperPod. Para workloads que rodam diretamente no EC2 com necessidade de capacidade reservada em janela fixa, consulte a documentação de Capacity Blocks for ML.

Pré-requisitos

Antes de começar, é necessário ter:
- Uma conta AWS com as permissões adequadas de Gerenciamento de Identidade e Acesso (IAM). Para criação de training plans, use a política gerenciada AmazonSageMakerTrainingPlanCreateAccess. Para criação, descrição e exclusão de endpoints de inferência, use a seguinte política:
```
{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "sagemaker:CreateEndpointConfig",
        "sagemaker:CreateEndpoint",
        "sagemaker:DescribeEndpoint",
        "sagemaker:DeleteEndpoint",
        "sagemaker:DeleteEndpointConfig"
      ],
      "Resource": [
        "arn:aws:sagemaker:*:*:endpoint/*",
        "arn:aws:sagemaker:*:*:endpoint-config/*"
      ]
    }
  ]
}
```
- Um recurso de modelo do SageMaker AI criado e pronto para implantação. Consulte a documentação para criar um modelo.
- A Interface de Linha de Comando da AWS (AWS CLI) versão 2.0 ou superior.
Criar um training plan

Acesse o console do Amazon SageMaker AI, selecione Training plans no painel de navegação esquerdo e clique em Create training plan. Configure a data preferida, a duração (por exemplo, 1 dia), o tipo de instância e a quantidade (por exemplo, 1 ml.trn1.32xlarge) para Inference Endpoint e clique em Find training plan. O console exibirá os planos disponíveis com o preço total. Revise os planos sugeridos com a precificação antecipada antes de aceitar a reserva.

Após aceitar o plano, adicione os detalhes e clique em Create your plan.

Atenção: os SageMaker Training Plans não podem ser cancelados após a compra. A reserva expirará automaticamente ao fim do período reservado.

Monitorar o status do training plan

Após a criação, o plano entra inicialmente no estado Pending, aguardando o processamento do pagamento. Após a confirmação do pagamento pela AWS, o plano passa para o estado Scheduled. Na data de início, ele se torna Active e o sistema aloca os recursos para uso.

Para verificar o status via AWS CLI:
```
aws sagemaker describe-training-plan \
    --training-plan-name your-training-plan-name \
    --region your-region
```
Quando a resposta exibir "Status": "Active", é possível iniciar as tarefas de inferência. Verifique também se o campo TargetResources exibe endpoint, confirmando que o plano está configurado para workloads de inferência.

Criar a configuração do endpoint
```
aws sagemaker create-endpoint-config \
    --endpoint-config-name your-endpoint-config-name \
    --production-variants '[
      {
        "VariantName": "your-variant-name",
        "ModelName": "your-model-name",
        "InitialInstanceCount": 1,
        "InstanceType": "ml.trn1.32xlarge",
        "CapacityReservationConfig": {
          "MlReservationArn": "your-training-plan-arn",
          "CapacityReservationPreference": "capacity-reservations-only"
        }
      }
    ]'
```
Implantar o endpoint
```
aws sagemaker create-endpoint \
    --endpoint-name your-endpoint-name \
    --endpoint-config-name your-endpoint-config-name
```
Verificar o status do endpoint
```
aws sagemaker describe-endpoint \
    --endpoint-name your-endpoint-name \
    --region your-region
```
Limpeza dos recursos

Para evitar cobranças contínuas, exclua os recursos criados:
```
aws sagemaker delete-endpoint --endpoint-name your-endpoint-name
```
```
aws sagemaker delete-endpoint-config --endpoint-config-name your-endpoint-config-name
```
Conclusão

Garantir capacidade GPU para workloads transitórios exige uma abordagem diferente do planejamento de longo prazo. A lógica recomendada pela AWS é simples: comece com capacidade sob demanda, aumente a flexibilidade sempre que possível e reserve capacidade com antecedência apenas quando a certeza de disponibilidade for crítica para o prazo do projeto.

A distinção entre workloads baseados diretamente no EC2 e workloads gerenciados pelo SageMaker AI é o primeiro critério de decisão. A partir daí, os Capacity Blocks e os Training Plans cobrem os dois cenários com desconto significativo em relação ao preço sob demanda — tornando a reserva antecipada uma escolha economicamente justificável quando o timing é determinante.

Fonte

Secure short-term GPU capacity for ML workloads with EC2 Capacity Blocks for ML and SageMaker training plans (https://aws.amazon.com/blogs/machine-learning/secure-short-term-gpu-capacity-for-ml-workloads-with-ec2-capacity-blocks-for-ml-and-sagemaker-training-plans/)
May 8, 2026
AWS conquista certificações SNI 27017, SNI 27018 e SNI 9001 na Região Ásia-Pacífico (Jacarta)
AWS avança em conformidade na Indonésia com três novas certificações nacionais

A Amazon Web Services (AWS) acaba de conquistar três certificações do Padrão Nacional Indonésio — o Standar Nasional Indonesia (SNI) — para a sua Região Ásia-Pacífico (Jacarta). As certificações obtidas são: SNI ISO/IEC 27017:2015, SNI ISO/IEC 27018:2019 e SNI ISO 9001:2015.

O SNI é o framework de padrões nacionais da Indonésia, com aplicação ampla em diferentes setores da economia do país. Conquistar essas certificações significa que os serviços da AWS atendem a requisitos formalmente reconhecidos pelo governo indonésio.

Como as certificações foram obtidas

A avaliação foi conduzida por um auditor terceiro independente, credenciado pelo Komite Akreditasi Nasional (KAN) — o Comitê Nacional de Acreditação da Indonésia. O processo seguiu os requisitos regulatórios locais aplicáveis, o que oferece aos clientes uma validação confiável e reconhecida regionalmente para suas necessidades de conformidade.

O que cada certificação significa na prática
- SNI 27017: baseada na norma internacional ISO/IEC 27017, adiciona controles de segurança específicos para ambientes de nuvem, complementando a ISO/IEC 27001. Ajuda organizações a executar cargas de trabalho com mais segurança e reduz o esforço em avaliações de segurança.
- SNI 27018: focada na proteção de Informações de Identificação Pessoal (PII) em nuvens públicas. Confirma que a AWS trata os dados dos clientes em conformidade com padrões internacionais de privacidade.
- SNI 9001: estabelece sistemas de gestão da qualidade que garantem entrega consistente de serviços e melhoria contínua nas operações da AWS.
AWS se torna a primeira provedora com as quatro certificações SNI

Somadas à certificação SNI 27001, conquistada em 2023, a AWS se torna agora a primeira provedora de serviços de nuvem (CSP) a deter as quatro certificações SNI — SNI 27001, SNI 27017, SNI 27018 e SNI 9001. Esse conjunto demonstra alinhamento abrangente com os padrões nacionais da Indonésia em segurança da informação, segurança em nuvem, privacidade e gestão da qualidade, ajudando clientes a atender a uma ampla gama de exigências regulatórias e de gestão de riscos.

Como acessar os certificados e verificar os serviços cobertos

Os certificados correspondentes estão disponíveis pelo AWS Artifact, o portal de autoatendimento da AWS para acesso sob demanda à documentação de conformidade. Para consultar a lista completa de serviços cobertos pelas certificações SNI, acesse a página de serviços em escopo da AWS.

A AWS segue expandindo o escopo de seus programas de conformidade para ajudar clientes a atenderem seus requisitos arquiteturais, de negócios e regulatórios. Para mais informações sobre essas certificações, o recomendado é entrar em contato com o time de contas AWS.

Fonte

AWS achieves SNI 27017, SNI 27018, and SNI 9001 certifications for the AWS Asia Pacific (Jakarta) Region (https://aws.amazon.com/blogs/security/aws-achieves-sni-27017-sni-27018-and-sni-9001-certifications-for-the-aws-asia-pacific-jakarta-region/)
May 8, 2026
Agentes que transacionam: conheça o Amazon Bedrock AgentCore Payments, desenvolvido com Coinbase e Stripe

O próximo passo dos agentes de IA: transacionar

Estamos diante de uma mudança fundamental na forma como o software é construído e utilizado. Os agentes de Inteligência Artificial (IA) estão deixando de ser simples assistentes que aguardam instruções para se tornarem atores autônomos: eles chamam APIs, acessam servidores MCP (Model Context Protocol — Protocolo de Contexto de Modelo), coordenam com outros agentes e executam tarefas complexas em múltiplas etapas em nome dos usuários.

À medida que esses agentes assumem tarefas cada vez mais diversas, o ecossistema ao redor deles também precisa evoluir. Olhando para o futuro próximo, serviços, ferramentas e conteúdos precisarão ser projetados para atender tanto humanos quanto agentes. Esses agentes vão descobrir, avaliar e pagar por recursos conforme a necessidade — tudo dentro de um único ciclo de execução. Os serviços que os suportam precisarão ser precificados e consumidos dessa forma: frações de centavo por chamada, cobrados em tempo real.

Fonte

Agents that transact: Introducing Amazon Bedrock AgentCore payments, built with Coinbase and Stripe (https://aws.amazon.com/blogs/machine-learning/agents-that-transact-introducing-amazon-bedrock-agentcore-payments-built-with-coinbase-and-stripe/)

May 8, 2026
Superando desafios de sinal de recompensa: aprendizado por reforço com recompensas verificáveis e GRPO no SageMaker AI
O problema dos sinais de recompensa no treinamento de LLMs

Treinar grandes modelos de linguagem (LLMs) exige sinais de feedback precisos. No aprendizado por reforço (RL) tradicional, esses sinais costumam ser pouco confiáveis: funções de recompensa imprecisas, vieses ocultos e critérios de sucesso ambíguos podem fazer o modelo aprender comportamentos indesejados — fenômeno conhecido como reward hacking, em que o modelo encontra atalhos para maximizar a pontuação sem realmente alcançar o objetivo desejado.

Para endereçar esse problema, a AWS publicou um tutorial completo sobre como implementar o Aprendizado por Reforço com Recompensas Verificáveis (RLVR — Reinforcement Learning with Verifiable Rewards) combinado com o algoritmo Otimização de Política Relativa por Grupos (GRPO — Group Relative Policy Optimization) no Amazon SageMaker AI. A abordagem é especialmente eficaz em tarefas com saídas objetivamente verificáveis, como raciocínio matemático, geração de código e manipulação simbólica.

Conceitos fundamentais: RLVR e GRPO

O que é RLVR?

O RLVR combate o reward hacking por meio de funções de recompensa baseadas em regras definidas pelo próprio tutor do modelo. Em vez de depender de avaliações humanas subjetivas, o sistema utiliza funções programáticas que pontuam as saídas automaticamente com base em critérios objetivos e reproduzíveis. Isso permite iterações rápidas e adaptação a novos cenários sem o gargalo da coleta de anotações humanas.

O que é GRPO?

O GRPO é um algoritmo de aprendizado por reforço que melhora o aprendizado de modelos de IA comparando o desempenho dentro de grupos, em vez de avaliar todos os dados de uma vez. Ele organiza os dados de treinamento em grupos significativos e otimiza o desempenho relativo à linha de base de cada grupo. Essa otimização orientada por grupos reduz a variância do treinamento, acelera a convergência e produz modelos com desempenho mais consistente entre diferentes categorias.

A combinação das duas técnicas

Combinar RLVR com GRPO cria uma estrutura em que as recompensas automatizadas guiam o aprendizado enquanto a otimização relativa por grupos impulsiona um desempenho equilibrado. As funções de recompensa são definidas para diferentes aspectos da tarefa, e o GRPO as trata como grupos distintos durante o treinamento, facilitando a melhoria simultânea em múltiplas dimensões.

Adicionar aprendizado few-shot (com poucos exemplos) potencializa ainda mais esse framework: os exemplos fornecem modelos do que são boas respostas, reduzindo o espaço de busca para exploração; o GRPO aproveita esses exemplos gerando múltiplas respostas candidatas por prompt e aprendendo com o desempenho relativo delas dentro de cada grupo; e as recompensas verificáveis confirmam imediatamente quais abordagens funcionam.

Visão geral da solução no SageMaker AI

O tutorial demonstra como fazer o fine-tuning do modelo Qwen2.5-0.5B no SageMaker AI usando Amazon SageMaker Training Jobs. Os Training Jobs suportam configurações distribuídas com múltiplas GPUs e múltiplos nós, permitindo criar clusters de alto desempenho sob demanda, treinar modelos com bilhões de parâmetros mais rapidamente e desligar os recursos automaticamente ao final do job.

Vale notar: o Qwen2.5-0.5B foi escolhido para este caso de uso específico, mas tarefas como geração de código exigirão modelos maiores (como o Qwen2.5-Coder-7B) e instâncias de treinamento mais robustas.

Imagem original — fonte: AWS

Pré-requisitos

Para executar o exemplo, são necessários: uma conta AWS, uma role de AWS Identity and Access Management (IAM — Gerenciamento de Identidade e Acesso) com acesso ao SageMaker AI, e acesso a uma instância de treinamento ml.p4d.24xlarge. O ambiente de desenvolvimento pode ser qualquer IDE de preferência (VS Code, PyCharm) com credenciais AWS configuradas, ou o próprio Amazon SageMaker Studio. O código-fonte está disponível no repositório GitHub de exemplos.

Preparação do dataset e sistema de recompensas duplas

O dataset GSM8K

O tutorial usa o dataset GSM8K (Matemática do Ensino Fundamental — 8 mil problemas), uma coleção de problemas matemáticos de nível escolar que exigem raciocínio aritmético em múltiplas etapas. O dataset é preparado extraindo a resposta final de cada questão — informação essencial para calcular as recompensas durante o treinamento. O exemplo utiliza 8 exemplos few-shot por entrada para melhorar o desempenho do treinamento, com base em pesquisas sobre o uso de exemplos em aprendizado por reforço para raciocínio em LLMs (veja o paper “Reinforcement Learning for Reasoning in Large Language Models with One Training Example”).

Sistema de recompensas duplas

A implementação do GRPO para raciocínio matemático emprega um sistema de recompensa dupla que fornece feedback objetivo e verificável durante o treinamento, sem necessidade de anotação humana:

Função de recompensa de formato: verifica se o modelo estrutura corretamente suas respostas. Ela busca o padrão #### The final answer is [número] e concede 0,5 ponto para formatação correta e 0,0 para formatação incorreta.
```
#Format reward function
def format_reward_func_qa(completions, **kwargs):
    pattern = r"\n#### The final answer is \d+"
    completion_contents = [completion for completion in completions]
    matches = [re.search(pattern, content) for content in completion_contents]
    return [0.5 if match else 0.0 for match in matches]
```
Função de recompensa de correção: realiza a verificação matemática central. Ela extrai respostas numéricas via regex, normaliza caracteres de formatação (vírgulas, símbolos de moeda) e usa uma tolerância de 1e-3 para lidar com precisão de ponto flutuante. Concede 1,0 para respostas corretas e 0,0 para incorretas.
```
#Correctness reward function
def correctness_reward_func_qa(completions, final_answer, **kwargs):
    rewards = []
    for completion, ground_truth in zip(completions, final_answer):
        try:
            match = re.search(r'####.*?([\d,]+(?:\.\d+)?)', completion)
            if match:
                answer = match.group(1)
                for remove_char in [',', '$', '%', 'g']:
                    answer = answer.replace(remove_char, '')
                if abs(float(answer)-float(ground_truth)) < 1e-3:
                    rewards.append(1.0)
                else:
                    rewards.append(0.0)
            else:
                rewards.append(0.0)
        except ValueError:
            rewards.append(0.0)
    return rewards
```
As duas funções são integradas ao pipeline de treinamento do GRPO via GRPOTrainer. A recompensa máxima combinada por completion é 1,5 (0,5 de formato + 1,0 de correção). O GRPO compara as completions dentro dos grupos para identificar as melhores respostas e atualiza os parâmetros do modelo de forma que completions com maior recompensa aumentem sua probabilidade, enquanto as de menor recompensa a diminuem.
```
rewards_funcs = [format_reward_func_qa, correctness_reward_func_qa]
trainer = GRPOTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    processing_class=tokenizer,
    peft_config=peft_config,
    reward_funcs=rewards_funcs,
)
```
Configuração do treinamento com QLoRA e DeepSpeed

O fine-tuning utiliza QLoRA (Adaptação de Baixo Rank Quantizada — Quantized Low-Rank Adaptation) para reduzir os requisitos de recursos de treinamento com uma pequena troca de acurácia. A receita completa de treinamento inclui os principais hiperparâmetros:
```
# Model arguments
model_name_or_path: Qwen/Qwen2.5-0.5B
tokenizer_name_or_path: Qwen/Qwen2.5-0.5B
model_revision: main
torch_dtype: bfloat16
attn_implementation: flash_attention_2
bf16: true
tf32: true
output_dir: /opt/ml/model/Qwen2.5-0.5B-RL-VR-GRPO

# Dataset arguments
train_dataset_id_or_path: /opt/ml/input/data/train/dataset.json
test_dataset_id_or_path: /opt/ml/input/data/val/dataset.json
dataset_splits: 'train'
max_seq_length: 2048
packing: true

# LoRA arguments
use_peft: true
load_in_4bit: true
lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "up_proj", "down_proj", "gate_proj"]
lora_modules_to_save: ["lm_head", "embed_tokens"]
lora_r: 16
lora_alpha: 16

# Training arguments
num_train_epochs: 2
per_device_train_batch_size: 16
gradient_accumulation_steps: 2
gradient_checkpointing: true
gradient_checkpointing_kwargs:
  use_reentrant: True
learning_rate: 1.84e-4
lr_scheduler_type: cosine
warmup_ratio: 0.1

# Logging arguments
logging_strategy: steps
logging_steps: 5
report_to:
  - mlflow
save_strategy: "no"
seed: 42
```
Para o treinamento distribuído em múltiplas GPUs, o script utiliza o Hugging Face Accelerate combinado com DeepSpeed ZeRO-3. O Accelerate simplifica o lançamento do treinamento distribuído, enquanto o ZeRO-3 reduz o uso de memória particionando estados do otimizador, gradientes e parâmetros entre as GPUs — permitindo que modelos com bilhões de parâmetros caibam e treinem mais rapidamente.
```
NUM_GPUS=$(nvidia-smi --list-gpus | wc -l)
echo "Detected ${NUM_GPUS} GPUs on the machine"

# Launch fine-tuning with Accelerate + DeepSpeed (Zero3)
accelerate launch \
    --config_file accelerate_configs/deepspeed_zero3.yaml \
    --num_processes ${NUM_GPUS} \
    run_grpo.py \
    --config $CONFIG_PATH
```
Resultados: melhoria de 3,7x no raciocínio matemático

Após avaliar os modelos em 100 amostras de teste, o modelo GRPO treinado com 8 exemplos few-shot alcançou 41% de acurácia, contra 11% do modelo base — uma melhoria de 3,7 vezes no raciocínio matemático em cadeia de pensamento.

Imagem original — fonte: AWS

Os resultados revelam um comportamento de limiar interessante: configurações com 0-shot (6%) e 2-shot (3%) tiveram desempenho até pior que o modelo base, enquanto o desempenho melhorou drasticamente a partir de 4-shot (33%), atingindo o pico com 8-shot (41%). Esse padrão de escalonamento não-linear sugere que o treinamento com GRPO cria padrões de raciocínio que precisam de um número mínimo de exemplos para serem ativados efetivamente — consistente com a abordagem de otimização baseada em grupos do algoritmo.

Generalizando o RLVR para outros domínios

Embora o tutorial foque em raciocínio matemático com o GSM8K, a abordagem RLVR se generaliza para qualquer domínio com saídas objetivamente verificáveis:
- Geração de código com recompensas baseadas em execução: recompensas parciais quando o código compila e executa sem erros, recompensas completas quando as saídas passam em testes unitários abrangentes.
- Geração de texto especializado com validação semântica: para domínios como escrita médica ou técnica, recompensas baseadas em palavras-chave guiam os modelos em direção à terminologia apropriada — por exemplo, recompensar textos que combinam palavras-chave diagnósticas com palavras-chave de tratamento em padrões clinicamente válidos.
Limpeza de recursos

Para evitar cobranças desnecessárias após os experimentos, a AWS recomenda: excluir recursos não utilizados do SageMaker Studio, opcionalmente excluir o domínio do SageMaker Studio, excluir os buckets S3 criados e verificar se os training jobs não estão mais em execução. Para mais detalhes, consulte a documentação de limpeza de recursos.

Conclusão

O tutorial da AWS demonstra como o RLVR combinado com GRPO representa uma alternativa robusta aos métodos de treinamento baseados em preferências humanas. O modelo Qwen2.5-0.5B treinado com essa abordagem alcançou uma melhoria de 3,7x sobre o modelo base no GSM8K, validando o RLVR como uma abordagem promissora para domínios com resultados objetivamente verificáveis. O comportamento de limiar observado sugere que o GRPO aprende a aproveitar comparações de grupo a partir de múltiplos exemplos, consistente com sua abordagem de otimização baseada em grupos.

Para mais informações sobre treinamento gerenciado no Amazon SageMaker AI, consulte a seção de treinamento da documentação do SageMaker AI. O código de suporte está disponível no GitHub.

Fonte

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI (https://aws.amazon.com/blogs/machine-learning/overcoming-reward-signal-challenges-verifiable-rewards-based-reinforcement-learning-with-grpo-on-sagemaker-ai/)
May 8, 2026
Instâncias Amazon EC2 G6 já disponíveis na AWS European Sovereign Cloud (Alemanha)
O que foi anunciado

A AWS anunciou que as instâncias Amazon EC2 G6, equipadas com GPUs NVIDIA L4, estão agora disponíveis na AWS European Sovereign Cloud (Alemanha). Essa expansão é relevante especialmente para organizações europeias que precisam de conformidade com requisitos de soberania de dados e, ao mesmo tempo, demandam capacidade computacional para cargas de trabalho intensivas em GPU.

Para que servem as instâncias G6

As instâncias G6 foram projetadas para cobrir dois grandes grupos de casos de uso: aprendizado de máquina (ML) e workloads gráficos.

Aprendizado de Máquina (ML)

No campo de ML, as instâncias G6 são indicadas para implantação de modelos voltados a:
- Processamento de linguagem natural (PLN)
- Tradução de idiomas
- Análise de vídeo e imagem
- Reconhecimento de voz
- Personalização de conteúdo
Workloads Gráficos

Para aplicações gráficas, as G6 atendem bem a cenários como criação e renderização de gráficos em tempo real com qualidade cinematográfica e streaming de jogos.

Especificações técnicas

Em termos de hardware, cada instância G6 pode contar com:
- Até 8 GPUs NVIDIA L4 Tensor Core, com 24 GB de memória por GPU
- Processadores AMD EPYC de terceira geração
- Até 192 vCPUs
- Até 100 Gbps de largura de banda de rede
- Até 7,52 TB de armazenamento local NVMe SSD
Disponibilidade por região

Além da AWS European Sovereign Cloud (Alemanha), as instâncias EC2 G6 já estão disponíveis nas seguintes regiões:
- EUA: Leste dos EUA (Norte da Virgínia e Ohio), Oeste dos EUA (Oregon)
- Europa: Frankfurt, Londres, Paris, Espanha, Estocolmo e Zurique
- Ásia-Pacífico: Mumbai, Tóquio, Malásia, Seul e Sydney
- América do Sul: São Paulo
- Oriente Médio: Emirados Árabes Unidos (EAU)
- Canadá: Central
Modelos de compra disponíveis

As instâncias G6 podem ser adquiridas em três modalidades:
- On-Demand Instances — pagamento por uso, sem compromisso
- Spot Instances — capacidade ociosa com potencial de desconto
- Savings Plans — compromisso de uso em troca de preços reduzidos
Como começar

Para provisionar as instâncias G6, a AWS disponibiliza acesso via Console de Gerenciamento da AWS, pela Interface de Linha de Comando da AWS (CLI) e pelos SDKs da AWS. Para informações técnicas detalhadas, vale consultar a página oficial das instâncias G6.

Fonte

Amazon EC2 G6 instances now available in AWS European Sovereign Cloud (Germany) (https://aws.amazon.com/about-aws/whats-new/2026/05/amazon-ec2-g6-aws-european-sovereign-cloud/)
May 8, 2026
Resumo de Segurança AWS: Tudo que Aconteceu em Abril de 2026
Visão Geral do Mês

Todo mês, o blog de segurança da AWS consolida os principais lançamentos, posts técnicos, amostras de código e boletins de vulnerabilidades em um único digest. Abril de 2026 foi especialmente movimentado: o tema central foi a segurança de sistemas de IA agêntica, mas o mês também trouxe avanços importantes em proteção de dados, resposta a incidentes e conformidade em escala organizacional. Veja abaixo o que foi publicado e o que merece atenção imediata no seu ambiente.

Posts do Blog de Segurança AWS

Os artigos de abril cobriram cinco grandes áreas: identidade e controle de acesso, segurança de IA, governança e conformidade, detecção e resposta a incidentes, e proteção de dados.

Identidade e Controle de Acesso

Dois posts exploraram o tema de políticas e controle de acesso com profundidade prática. O primeiro, Controle de acesso com session tags do IAM Identity Center, ensina a combinar permission sets do AWS IAM Identity Center com session tags provenientes do Microsoft Entra ID para implementar Controle de Acesso Baseado em Atributos (ABAC) de forma granular em múltiplas contas AWS.

O segundo, Dá para fazer isso com uma policy? Entendendo a Referência de Autorização de Serviços da AWS, orienta como usar a AWS Service Authorization Reference para descobrir o que é possível alcançar com políticas IAM, identificar cenários que exigem abordagens alternativas e construir controles de segurança mais eficazes.

Segurança de IA

Este foi o bloco mais denso do mês, com cinco publicações dedicadas ao tema.

O post Padrões de acesso seguro para agentes de IA em recursos AWS usando o Model Context Protocol apresenta três princípios fundamentais: privilégio mínimo, governança de papéis organizacionais e diferenciação entre ações iniciadas por IA e por humanos — tudo no contexto do protocolo MCP.

Já Quatro princípios de segurança para sistemas de IA agêntica sistematiza as recomendações da AWS em resposta ao NIST: ciclo de vida de desenvolvimento seguro, controles tradicionais adaptados, aplicação determinística de regras externas e autonomia conquistada por meio de avaliação contínua.

O artigo Projetando confiança e segurança em aplicações com Amazon Bedrock trata da integração de conceitos de IA responsável em aplicações baseadas no Amazon Bedrock, cobrindo detecção de abuso, monitoramento com Amazon CloudWatch, configuração do Bedrock Guardrails e o processo de resposta a abusos.

O post de maior repercussão do mês foi Construindo defesas de IA em escala: antes das ameaças surgirem. Nele, o CISO da AWS anuncia o Project Glasswing em parceria com a Anthropic, apresentando o Claude Mythos Preview para pesquisa de vulnerabilidades, além da disponibilidade geral do AWS Security Agent para testes de penetração autônomos.

Governança e Conformidade

O post Conformidade de tags com Shift-Left usando AWS Organizations e Terraform mostra como validar conformidade de tags ainda durante o desenvolvimento, combinando políticas de tags do AWS Organizations, um módulo Terraform reutilizável e uma abordagem orientada a testes que valida dinamicamente contra políticas organizacionais ativas.

Detecção e Resposta a Incidentes

Três publicações cobriram esse domínio. O artigo O que a atualização do Catálogo de Técnicas de Ameaças de março de 2026 significa para seu ambiente AWS, produzido pela equipe CIRT da AWS, detalha três novas técnicas: abuso de refresh token do Amazon Cognito, exclusão de imagens AMI para comprometer a recuperação e modificações em trust policies para persistência e escalada de privilégios.

Em Um framework para coletar artefatos forenses com segurança em buckets S3, a AWS descreve como realizar coleta forense segura no Amazon S3 usando credenciais temporárias com privilégio mínimo via AWS STS session policies e fluxos automatizados com AWS Step Functions.

O terceiro post, Transformando logs de segurança para o formato OCSF com uma solução ETL orientada a configuração, apresenta uma solução do AWS ProServe que converte logs personalizados para o formato Open Cybersecurity Schema Framework (OCSF) usando AWS Step Functions, AWS Glue ou Amazon EMR Serverless, com integração ao Amazon Security Lake.

Vale mencionar ainda o artigo Um guia técnico de segurança multicloud full-stack com AWS Security Hub Extended, que explica como essa extensão simplifica a aquisição e operação de segurança em ambientes multicloud por meio de soluções de parceiros curadas, faturamento unificado e consolidação de findings baseada em OCSF.

Proteção de Dados

Três posts abordaram proteção de dados com foco em criptografia avançada.

O artigo Protegendo seus segredos dos riscos quânticos do futuro orienta como atualizar clientes do AWS Secrets Manager para usar TLS pós-quântico híbrido com ML-KEM, protegendo segredos contra ataques do tipo “harvest-now-decrypt-later” (capturar agora, descriptografar depois), com verificação de conexões via AWS CloudTrail.

Em Como o AWS KMS e o AWS Encryption SDK superam os limites da criptografia simétrica, a AWS explica como o AWS Key Management Service e o SDK de criptografia usam métodos de chave derivada para gerenciar automaticamente os limites do AES-GCM, eliminando a necessidade de rotação manual de chaves.

Por fim, Como clonar um cluster AWS CloudHSM entre regiões detalha o uso do comando CopyBackupToRegion para replicar clusters do AWS CloudHSM para outra região e sincronizar chaves — inclusive chaves não exportáveis — para fins de recuperação de desastres.

Boletins de Segurança de Abril

A AWS divulgou investigações de vulnerabilidades em vários produtos e serviços ao longo do mês. Abaixo estão os boletins publicados — verifique se algum deles afeta componentes do seu ambiente e aplique os patches recomendados:
Amostras de Código AWS (AWS Samples)

Abril trouxe 16 novos repositórios prontos para uso, cobrindo identidade, governança, conformidade, detecção e resposta, segurança de IA, proteção de dados e infraestrutura. Veja os destaques por categoria:

Identidade
- Amazon Cognito OAuth2 Token Proxy com Cache — Como implantar um proxy no Amazon API Gateway para o endpoint OAuth2 do Cognito com cache inteligente e proteção via AWS WAF, reduzindo custos de autenticação M2M em mais de 90%.
- Demo de Autorização com Cognito e API Gateway — Implementação de proteção de dados por usuário usando Amazon Cognito, API Gateway e um autorizador AWS Lambda que aplica correspondência de sub claim JWT para evitar acesso cruzado entre usuários.
- Conectando sistemas de dados on-premises ao Amazon Redshift com IAM Roles Anywhere — Ambiente totalmente privado conectando cargas de trabalho on-premises ao Amazon Redshift usando autenticação por certificado X.509 via IAM Roles Anywhere para credenciais de curta duração.
- Gerenciamento do Ciclo de Vida de Chaves de Acesso IAM com Aprovação Humana — Automação para detecção, desativação e exclusão de chaves de acesso IAM não utilizadas em toda a organização, usando Step Functions, IAM Access Analyzer e um fluxo de aprovação humana seguro.
- Auditoria do Secrets Manager — Solução que identifica e reporta quem pode acessar seus segredos no AWS Secrets Manager — entre contas, via Identity Center e até o usuário humano por trás da role IAM — em um único comando.
Governança
- Automação de Re-Registro de Organizações no Control Tower — Automatiza o re-registro de UOs e atualização de contas no AWS Control Tower em escala usando lifecycle events, Amazon EventBridge e AWS Lambda.
- Sample Agent Skills para Builders — Coleção de skills instaláveis que estendem agentes de codificação com IA (Claude Code, Cursor, Copilot) com fluxos de trabalho prontos para produção em AWS, CDK e varredura de segurança.
- Como Parar Alucinações de Agentes de IA: 5 Técnicas + Produção no Amazon Bedrock AgentCore — Detecção, prevenção e autocorreção de alucinações usando Graph-RAG, seleção semântica de ferramentas, validação multi-agente, guardrails neurossimbólicos e direcionamento de agentes com Strands Agents.
Conformidade
- Compliance Lens — Solução serverless que analisa snapshots do AWS Config em toda uma organização AWS, compara com conjuntos de regras de conformidade e visualiza o posicionamento de conformidade via Amazon QuickSight.
- Configuração Terraform para o AWS Security Agent — Provisionamento de recursos do AWS Security Agent usando o provider Terraform AWSCC, automatizando criação de espaço de agente, roles IAM, registro de domínio alvo e configuração de testes de penetração.
Detecção e Resposta a Incidentes
- Suite de Demonstração do AWS Security Agent — Três cenários práticos: revisões de design automatizadas, revisão de código de infraestrutura gerado por IA via GitHub e testes de penetração contra aplicações intencionalmente vulneráveis.
- Workshop de SOC Agêntico — Infraestrutura CDK — Construção de um agente de Centro de Operações de Segurança (SOC) com IA que investiga findings do Amazon GuardDuty, consulta logs do CloudTrail e executa ações de contenção automatizadas usando Amazon Bedrock AgentCore.
Proteção de Dados
- Autenticação Kerberos para Jobs Apache Spark no Amazon EMR no EKS acessando um Hive Metastore com Kerberos — Configuração de autenticação Kerberos para jobs Spark no Amazon EMR no Amazon Elastic Kubernetes Service, conectando a um Hive Metastore com Kerberos usando Microsoft Active Directory como KDC.
- AWS Nitro Enclaves com Kubernetes – Exemplo Hello World — Deploy de uma aplicação dentro de um AWS Nitro Enclave no Amazon EKS, cobrindo criação de cluster, configuração do device plugin e construção da imagem do enclave.
Infraestrutura e Segurança de IA
- Multi-Tenant OpenClaw no Firecracker — Deploy de agentes de IA OpenClaw isolados e multi-tenant na AWS usando microVMs Firecracker com isolamento de kernel e rede por tenant, auto-scaling, backup/restore e console de gerenciamento web.
- Amazon Bedrock para Iniciantes – Do Primeiro Prompt ao Agente de IA — Construção de aplicações de IA no Amazon Bedrock, desde chamadas básicas de API até um agente completo com RAG, guardrails, uso de ferramentas e o Strands Agents SDK.
O que Fica de Lição do Mês

Abril de 2026 deixa claro que proteger cargas de trabalho de IA exige o mesmo rigor aplicado à infraestrutura tradicional — e, em alguns aspectos, ainda mais atenção. Os posts e amostras deste mês oferecem padrões concretos para aplicar privilégio mínimo em sistemas agênticos, automatizar governança em escala organizacional e preparar implementações criptográficas para os requisitos pós-quânticos que se aproximam.

Os boletins de segurança cobrem vulnerabilidades em camadas de computação, rede e ferramentas de desenvolvimento — reforçando a necessidade de aplicar patches de forma consistente e sem atraso. Cada recurso listado aqui inclui etapas de implantação ou código executável para que você possa validar a abordagem no seu próprio ambiente antes de adotá-la em produção.

Fonte

ICYMI: April 2026 @AWS Security (https://aws.amazon.com/blogs/security/icymi-april-2026-aws-security/)
May 8, 2026
Amazon SageMaker Unified Studio ganha recursos de gerenciamento de identidade e usuários
Mais controle para administradores no SageMaker Unified Studio

A AWS anunciou novos recursos de administração no Amazon SageMaker Unified Studio que ampliam o controle sobre configuração de identidade e gerenciamento de usuários. As novidades atendem tanto domínios do tipo IAM quanto domínios do tipo Identity Center, tornando a gestão de times mais flexível e centralizada.

O que muda nos domínios IAM do SageMaker

Para quem utiliza domínios IAM no SageMaker Unified Studio, agora é possível integrar o AWS IAM Identity Center para permitir que usuários acessem a plataforma via single sign-on (autenticação única). Com essa configuração, os administradores podem adicionar como membros de projetos:
- Funções IAM (IAM roles)
- Usuários IAM (IAM users)
- Usuários do IAM Identity Center
- Grupos do IAM Identity Center
Isso significa que equipes conseguem colaborar nos dados e recursos de um projeto mesmo que cada membro se autentique de uma forma diferente. A configuração da integração com o IAM Identity Center é feita diretamente pelo portal de administração do SageMaker Unified Studio.

Outro recurso relevante para domínios IAM é a nova página de gerenciamento de usuários do domínio, que oferece uma visão consolidada de todos os usuários ativos. A partir dessa tela única, os administradores conseguem gerenciar acessos e atualizar permissões sem precisar navegar por múltiplas interfaces.

O que muda nos domínios Identity Center do SageMaker

Nos domínios Identity Center, a novidade é a possibilidade de usuários acessarem o portal do SageMaker Unified Studio por meio de federação via função IAM. A plataforma passa a criar uma sessão de usuário única para cada pessoa que acessa de forma federada — o que resolve um problema prático importante: quando múltiplos usuários compartilham a mesma função IAM, eles não sobrescrevem mais o trabalho uns dos outros.

Além disso, os administradores agora conseguem auditar ações individuais mesmo em cenários onde vários usuários compartilham uma única função IAM, o que melhora significativamente a rastreabilidade e a governança.

Flexibilidade para equipes com diferentes métodos de autenticação

Com essas atualizações, as equipes podem utilizar tanto identidade IAM quanto identidade corporativa via IAM Identity Center nos dois tipos de domínio do SageMaker Unified Studio. O resultado prático é maior flexibilidade para colaboração, independentemente de como cada membro do time realiza sua autenticação.

Disponibilidade regional

Os novos recursos já estão disponíveis nas seguintes regiões AWS: Ásia-Pacífico (Mumbai, Seul, Singapura, Sydney e Tóquio), Canadá (Central), Europa (Frankfurt, Irlanda, Londres, Paris e Estocolmo), América do Sul (São Paulo), Leste dos EUA (Virgínia do Norte e Ohio) e Oeste dos EUA (Oregon).

Para aprofundar o entendimento sobre as configurações disponíveis, a AWS disponibiliza a documentação oficial do SageMaker Unified Studio.

Fonte

Amazon SageMaker Unified Studio adds identity and user management features (https://aws.amazon.com/about-aws/whats-new/2026/05/smus-identity-user-management/)
May 8, 2026
AWS Capabilities by Region agora suporta notificações de disponibilidade
Novidade no AWS Builder Center

A AWS anunciou a chegada das notificações de disponibilidade para o AWS Capabilities by Region, ferramenta disponível dentro do AWS Builder Center. O recurso funciona como um sistema de assinaturas que dispara alertas automáticos sempre que um serviço ou funcionalidade da AWS passa a estar disponível em uma determinada região.

O que são as notificações de disponibilidade?

Quem trabalha com planejamento de infraestrutura em múltiplas regiões sabe como é trabalhoso monitorar manualmente quando cada serviço chega a cada região. A novidade resolve exatamente esse problema: em vez de verificar periodicamente se um recurso está disponível onde você precisa, o próprio sistema avisa quando isso acontece.

Com essa funcionalidade, é possível acompanhar a disponibilidade de mais de 1.500 serviços e funcionalidades distribuídos pelas 37 regiões da AWS. Isso acelera diretamente as decisões de planejamento e implantação de infraestrutura.

Como funciona a assinatura

A inscrição é feita diretamente pela interface do AWS Builder Center, no nível do serviço. Ao assinar um serviço, a cobertura já inclui automaticamente todas as funcionalidades associadas a ele nas regiões selecionadas — sem necessidade de configurar cada feature individualmente.

As notificações chegam por dois canais:
- Alertas em tempo real dentro do próprio AWS Builder Center
- Resumo semanal por e-mail consolidando as novidades do período
As preferências de assinatura e notificação podem ser gerenciadas em Configurações > Notificações dentro do AWS Builder Center.

Casos de uso práticos

A AWS destaca alguns cenários em que esse recurso é especialmente útil:
- Monitorar o lançamento de uma funcionalidade específica em uma região-alvo
- Acompanhar a paridade de serviços entre diferentes regiões da AWS
- Se preparar para migrações ou expansões regionais
Um exemplo concreto mencionado pela AWS: um arquiteto de soluções que está expandindo uma aplicação de Inteligência Artificial (IA) generativa para novas regiões pode assinar o Amazon Bedrock e receber atualizações automáticas conforme funcionalidades como Knowledge Bases, Guardrails e outras se tornarem disponíveis naquelas regiões.

Disponibilidade e acesso

O recurso está disponível sem custo adicional para todos os usuários globais autenticados com um Builder ID. Para ativar as notificações, basta acessar o AWS Capabilities by Region no AWS Builder Center.

Fonte

AWS Capabilities by Region now supports availability notifications (https://aws.amazon.com/about-aws/whats-new/2026/05/aws-regional-planning-tool-notification)
May 8, 2026
Instâncias Amazon EC2 G7e chegam à região Europa (Londres)
Novas instâncias G7e disponíveis em Londres

A AWS anunciou a disponibilidade das instâncias Amazon EC2 G7e na região Europa (Londres). Aceleradas pelas GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition, essas instâncias chegam com desempenho de inferência até 2,3 vezes superior em comparação com as instâncias G6e — um salto relevante para equipes que trabalham com cargas de trabalho de Inteligência Artificial.

Para quais workloads as G7e são indicadas?

As instâncias G7e foram projetadas para atender a uma variedade de casos de uso modernos e exigentes. Entre os principais, a AWS destaca:
- Implantação de Modelos de Linguagem de Grande Escala (LLMs)
- Modelos de IA agêntica
- Modelos de IA generativa multimodal
- Modelos de IA física
Além disso, as G7e se destacam como a opção de maior desempenho para cargas de trabalho de computação espacial e para cenários que combinam processamento gráfico e de IA simultaneamente.

Especificações técnicas

Do ponto de vista de hardware, as instâncias G7e entregam uma configuração robusta:
- Até 8 GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition
- 96 GB de memória por GPU
- Processadores Intel Xeon de 5ª Geração
- Suporte a até 192 CPUs virtuais (vCPUs)
- Até 1.600 Gbps de largura de banda de rede
As G7e também suportam o NVIDIA GPUDirect Peer to Peer (P2P), tecnologia que aumenta o desempenho em workloads que utilizam múltiplas GPUs em paralelo. Para configurações multi-GPU, há ainda suporte ao NVIDIA GPUDirect Acesso Direto à Memória Remota (RDMA) com EFA em EC2 UltraClusters, o que reduz a latência em workloads multi-nó de pequena escala.

Regiões disponíveis e opções de compra

As instâncias G7e já estão disponíveis nas seguintes regiões da AWS:
- US West (Oregon)
- US East (Norte da Virgínia e Ohio)
- Europa (Espanha e Londres)
- Ásia-Pacífico (Tóquio e Seul)
Em termos de modelo de aquisição, as G7e podem ser contratadas como Instâncias Sob Demanda, Instâncias Spot ou por meio dos Savings Plans da AWS.

Como começar

Para provisionar as instâncias G7e, é possível utilizar o Console de Gerenciamento da AWS, a Interface de Linha de Comando da AWS (CLI) ou os SDKs da AWS. Para conhecer todos os detalhes técnicos, a AWS disponibiliza a página oficial das instâncias G7e.

Fonte

Amazon EC2 G7e instances now available in Europe (London) region (https://aws.amazon.com/about-aws/whats-new/2026/05/amazon-ec2-g7e-london-region/)
May 8, 2026
Instâncias Amazon EC2 P6-B300 chegam à Região US East (N. Virginia)
Mais uma região recebe as instâncias P6-B300

A AWS anunciou, em 6 de maio de 2026, que as instâncias Amazon EC2 P6-B300 passaram a estar disponíveis na região US East (N. Virginia). Com isso, essa família de instâncias de alta performance para cargas de trabalho de Inteligência Artificial (IA) amplia ainda mais sua cobertura geográfica dentro da infraestrutura da AWS.

O que são as instâncias P6-B300?

As instâncias P6-B300 são equipadas com 8 GPUs NVIDIA Blackwell Ultra e foram projetadas para atender às demandas mais intensas de treinamento e inferência de modelos de IA de grande escala. Confira as especificações técnicas principais:
- 2,1 TB de memória de GPU de alta largura de banda
- 6,4 Tbps de rede EFA (Elastic Fabric Adapter)
- 300 Gbps de throughput dedicado ENA (Elastic Network Adapter)
- 4 TB de memória de sistema
Como a P6-B300 se compara à P6-B200?

Em relação à geração anterior, a P6-B200, a nova P6-B300 entrega ganhos expressivos em todas as frentes críticas para workloads de IA:
- 2x mais largura de banda de rede
- 1,5x mais memória de GPU
- 1,5x mais TFLOPS de GPU (medido em FP4, sem esparsidade)
Esses avanços se traduzem diretamente em tempos de treinamento mais rápidos e maior throughput de tokens para aplicações de IA — dois fatores decisivos para equipes que trabalham com modelos de fundação (FMs) e Modelos de Linguagem de Grande Escala (LLMs) com trilhões de parâmetros.

Para quais casos de uso as P6-B300 são indicadas?

Segundo a AWS, as instâncias P6-B300 são especialmente adequadas para:
- Treinamento de modelos de fundação (FMs) de grande porte
- Implantação de LLMs com técnicas sofisticadas de inferência
- Workloads de IA que exigem alta capacidade de memória e largura de banda de rede elevada
Disponibilidade e tamanho de instância

As instâncias P6-B300 estão disponíveis exclusivamente no tamanho p6-b300.48xlarge e podem ser provisionadas nas seguintes regiões da AWS:
- US West (Oregon)
- AWS GovCloud (US-East)
- US East (N. Virginia) — novidade desta semana
Para conhecer todos os detalhes técnicos e começar a usar as instâncias P6-B300, a AWS disponibiliza a documentação completa em Amazon EC2 P6 — página oficial das instâncias.

Fonte

Amazon EC2 P6-B300 instances are now available in the US East (N. Virginia) Region (https://aws.amazon.com/about-aws/whats-new/2026/05/amazon-ec2-p6-b300-us-east)
May 7, 2026