Implementar pontos de inferência do SageMaker com capacidade de GPU reservada usando planos de treinamento

Garantindo capacidade de GPU previsível para inferência

Implementar grandes modelos de linguagem (LLMs) para inferência exige capacidade confiável de processamento em GPU, especialmente durante períodos críticos de avaliação, testes limitados de produção ou picos de demanda. Quando a disponibilidade de recursos sob demanda é incerta — principalmente em horários de pico — essa imprevisibilidade pode comprometer cronogramas de implantação e impactar o desempenho das aplicações.

A solução apresentada pela Amazon SageMaker permite que clientes utilizem planos de treinamento para reservar capacidade de computação em períodos específicos. Inicialmente projetados para cargas de treinamento, esses planos agora suportam endpoints de inferência, oferecendo disponibilidade previsível de GPU para workloads vinculados ao tempo.

O cenário prático de avaliação de modelos

Imagine uma equipe de ciência de dados que precisa avaliar diversos modelos de linguagem ajustados em um período de duas semanas antes de selecionar um para produção. A equipe necessita de acesso ininterrupto a instâncias ml.p5.48xlarge para executar benchmarks comparativos, mas a capacidade sob demanda em sua região AWS é imprevisível durante horas de pico. Ao reservar capacidade através dos planos de treinamento, a equipe consegue executar suas avaliações ininterruptamente com custos controlados e disponibilidade garantida.

O Amazon SageMaker oferece um mecanismo flexível para garantir essa capacidade. Você busca ofertas disponíveis, seleciona o tipo de instância, quantidade e duração que correspondem às suas necessidades, e cria uma reserva — seja por um número fixo de dias ou meses, ou por uma quantidade específica de dias consecutivos.

Como funciona: fluxo geral da solução

Os planos de treinamento do SageMaker funcionam em quatro fases principais:

Identificar requisitos de capacidade: Determine o tipo de instância, quantidade de instâncias e duração necessária para sua carga de inferência
Buscar ofertas disponíveis: Consulte a capacidade disponível que atende aos seus requisitos e janela de tempo desejada
Criar a reserva: Selecione uma oferta adequada e crie a reserva, que gera um identificador de recurso (ARN)
Implantar e gerenciar: Configure seu endpoint do SageMaker para usar a capacidade reservada e gerencie seu ciclo de vida durante o período de reserva

Preparação inicial: pré-requisitos

Antes de começar, você precisará de:

Um papel de execução IAM com acesso ao SageMaker
Um modelo treinado enviado para o Amazon Simple Storage Service (Amazon S3)
A Interface de Linha de Comando AWS (AWS CLI) instalada e configurada, ou acesso ao console do SageMaker
Um plano de treinamento criado para o SageMaker

Etapa 1: Buscar ofertas de capacidade disponível

O primeiro passo é identificar capacidade disponível de GPU da família p que corresponda aos seus requisitos. No exemplo da equipe, eles precisam de uma instância ml.p5.48xlarge por uma semana, começando no final de janeiro. Utilizando a API de busca de ofertas de planos de treinamento, especificam o tipo de instância, quantidade, duração em horas, e a janela de tempo desejada:

aws sagemaker search-training-plan-offerings \
  --target-resources "endpoint" \
  --instance-type "ml.p5.48xlarge" \
  --instance-count 1 \
  --duration-hours 168 \
  --start-time-after "2025-01-27T15:48:14-04:00" \
  --end-time-before "2025-01-31T14:48:14-05:00"

A resposta fornece informações detalhadas sobre cada bloco de capacidade disponível — tipo de instância, quantidade, duração, zona de disponibilidade e preço. Cada oferta inclui horários específicos de início e fim, permitindo selecionar uma reserva que se alinhe ao cronograma de implantação:

{
  "TrainingPlanOfferings": [
    {
      "TrainingPlanOfferingId": "tpo-SHA-256-hash-value",
      "TargetResources": ["endpoint"],
      "RequestedStartTimeAfter": "2025-01-21T12:48:14.704000-08:00",
      "DurationHours": 168,
      "DurationMinutes": 10080,
      "UpfrontFee": "xxxx.xx",
      "CurrencyCode": "USD",
      "ReservedCapacityOfferings": [
        {
          "InstanceType": "ml.p5.48xlarge",
          "InstanceCount": 1,
          "AvailabilityZone": "us-west-2a",
          "DurationHours": 168,
          "DurationMinutes": 10080,
          "StartTime": "2025-01-27T15:48:14-04:00",
          "EndTime": "2025-01-31T14:48:14-05:00"
        }
      ]
    }
  ]
}

Após identificar uma oferta adequada que se encaixa no cronograma, cria-se a reserva do plano de treinamento para garantir a capacidade:

aws sagemaker create-training-plan \
  --training-plan-offering-id "tpo-SHA-256-hash-value" \
  --training-plan-name "p4-for-inference-endpoint"

A resposta contém o ARN do plano de treinamento, que identificará unicamente a capacidade reservada:

{
  "TrainingPlanArn": "arn:aws:sagemaker:us-east-1:123456789123:training-plan/p4-for-inference-endpoint"
}

Criando planos de treinamento via console

É possível criar planos de treinamento diretamente pelo console do SageMaker, que oferece uma interface visual para buscar capacidade e completar a reserva. O fluxo do console segue três etapas: buscar ofertas, adicionar detalhes do plano e revisar e comprar.

No console, você navega até Modelo training & customization no painel de navegação, seleciona Training plans e clica em Create training plan. Na busca, seleciona Inference Endpoint como alvo, escolhe o tipo de instância desejado (ex: ml.p5.48xlarge), especifica a quantidade e a duração, e clica em Find training plan para visualizar ofertas disponíveis.

Após selecionar um plano, o console conduz através das etapas finais de confirmação de detalhes e revisão de termos. Após a compra, você recebe o ARN do plano de treinamento, que será essencial para configurar o endpoint de inferência.

Etapa 2: Criar configuração de endpoint com a reserva

Com a reserva garantida, a próxima etapa é criar uma configuração de endpoint que vincule seu endpoint de inferência à capacidade reservada. O passo crítico aqui é incluir o objeto CapacityReservationConfig na seção ProductionVariants, onde você define MlReservationArn como o ARN do plano de treinamento obtido anteriormente:

aws sagemaker create-endpoint-config \
  --endpoint-config-name "ftp-ep-config" \
  --production-variants '[{
    "VariantName": "AllTraffic",
    "ModelName": "my-model",
    "InitialInstanceCount": 1,
    "InstanceType": "ml.p5.48xlarge",
    "InitialVariantWeight": 1.0,
    "CapacityReservationConfig": {
      "CapacityReservationPreference": "capacity-reservations-only",
      "MlReservationArn": "arn:aws:sagemaker:us-east-1:123456789123:training-plan/p4-for-inference-endpoint"
    }
  }]'

Quando o SageMaker recebe essa solicitação, valida se o ARN aponta para uma reserva de plano de treinamento ativa com tipo de recurso de alvo “endpoint”. Se a validação tiver sucesso, a configuração do endpoint é criada e fica elegível para implantação.

A configuração CapacityReservationPreference é particularmente importante: ao defini-la como capacity-reservations-only, você restringe o endpoint apenas à sua capacidade reservada. Quando a reserva expira, o endpoint para de servir tráfego automaticamente, evitando cobranças inesperadas.

Etapa 3: Implantar o endpoint na capacidade reservada

Com a configuração de endpoint pronta, procede-se à implantação:

aws sagemaker create-endpoint \
  --endpoint-name "my-endpoint" \
  --endpoint-config-name "ftp-ep-config"

O endpoint agora executa integralmente dentro da capacidade do plano de treinamento reservado. O SageMaker provisiona a instância ml.p5.48xlarge na zona de disponibilidade especificada e carrega o modelo — esse processo pode levar vários minutos. Quando o endpoint atinge o status InService, você está pronto para iniciar sua carga de trabalho de avaliação.

Etapa 4: Invocar o endpoint durante período ativo

Com o endpoint em serviço, você pode executar sua carga de trabalho de avaliação. Invocações do endpoint para inferência em tempo real permitem enviar prompts de teste e medir qualidade de resposta, latência e vazão:

aws sagemaker-runtime invoke-endpoint \
  --endpoint-name "my-endpoint" \
  --body fileb://input.json \
  --content-type "application/json" \
  output.json

Durante a janela de reserva ativa, o endpoint opera normalmente com capacidade garantida. Todas as invocações são processadas usando os recursos reservados, facilitando desempenho e disponibilidade previsíveis, sem preocupações com restrições de capacidade ou variabilidade de performance.

Etapa 5: Comportamento quando a reserva expira

É importante entender o que acontece quando o plano de treinamento expira enquanto o endpoint ainda está implantado. O comportamento do endpoint depende da configuração CapacityReservationPreference. Como foi definida como capacity-reservations-only, o endpoint para de servir tráfego e invocações falham com erro de capacidade:

{
  "Error": {
    "Code": "ModelError",
    "Message": "Endpoint capacity reservation has expired. Please update endpoint configuration."
  }
}

Para retomar o serviço, você deve criar uma nova reserva de plano de treinamento e atualizar a configuração do endpoint, ou atualizar o endpoint para usar capacidade sob demanda. Se a avaliação foi concluída, a equipe pode simplesmente excluir o endpoint em vez de estender a reserva.

Etapa 6: Atualizar endpoint durante o período de avaliação

Durante o período de avaliação, você pode precisar atualizar o endpoint por diversas razões. O SageMaker suporta vários cenários de atualização enquanto mantém a conexão com a capacidade reservada.

Atualizar para nova versão de modelo

Se no meio da avaliação você deseja testar uma versão de modelo melhorada com ajuste fino adicional, você pode atualizar para a nova versão mantendo a mesma capacidade reservada:

aws sagemaker create-endpoint-config \
  --endpoint-config-name "ftp-ep-config-v2" \
  --production-variants '[{
    "VariantName": "AllTraffic",
    "ModelName": "my-model-v2",
    "InitialInstanceCount": 1,
    "InstanceType": "ml.p5.48xlarge",
    "InitialVariantWeight": 1.0,
    "CapacityReservationConfig": {
      "CapacityReservationPreference": "capacity-reservations-only",
      "MlReservationArn": "arn:aws:sagemaker:us-east-1:123456789123:training-plan/p4-for-inference-endpoint"
    }
  }]'

aws sagemaker update-endpoint \
  --endpoint-name "my-endpoint" \
  --endpoint-config-name "ftp-ep-config-v2"

Migrar de reserva para capacidade sob demanda

Se a avaliação se estender além do esperado ou se você deseja levar o endpoint para produção depois que a reserva expirar, você pode migrar para capacidade sob demanda:

aws sagemaker create-endpoint-config \
  --endpoint-config-name "ondemand-ep-config" \
  --production-variants '[{
    "VariantName": "AllTraffic",
    "ModelName": "my-model",
    "InitialInstanceCount": 1,
    "InstanceType": "ml.p5.48xlarge",
    "InitialVariantWeight": 1.0
  }]'

aws sagemaker update-endpoint \
  --endpoint-name "my-endpoint" \
  --endpoint-config-name "ondemand-ep-config"

Etapa 7: Escalar o endpoint dentro dos limites de reserva

Em alguns cenários, você pode reservar mais capacidade do que implanta inicialmente, oferecendo flexibilidade para escalar quando necessário. Por exemplo, se a equipe reservou duas instâncias mas implantou apenas uma, ela pode escalar durante a avaliação para testar cenários de maior vazão:

aws sagemaker create-endpoint-config \
  --endpoint-config-name "ftp-ep-config-scaled" \
  --production-variants '[{
    "VariantName": "AllTraffic",
    "ModelName": "my-model",
    "InitialInstanceCount": 2,
    "InstanceType": "ml.p5.48xlarge",
    "InitialVariantWeight": 1.0,
    "CapacityReservationConfig": {
      "CapacityReservationPreference": "capacity-reservations-only",
      "MlReservationArn": "arn:aws:sagemaker:us-east-1:123456789123:training-plan/p4-for-inference-endpoint"
    }
  }]'

aws sagemaker update-endpoint \
  --endpoint-name "my-endpoint" \
  --endpoint-config-name "ftp-ep-config-scaled"

Contudo, se você tentar escalar além da capacidade reservada, a atualização falhará:

{
  "Error": {
    "Code": "ValidationException",
    "Message": "Requested instance count (3) exceeds reserved capacity (2) for training plan."
  }
}

Etapa 8: Excluir o endpoint e encerrar

Após completar a avaliação de uma semana e reunir todas as métricas de desempenho necessárias, a equipe está pronta para limpar a infraestrutura. A reserva do plano de treinamento expira automaticamente no final da janela especificada. Um detalhe importante: você é cobrado pelo período completo de reserva, independente de quando exclui o endpoint.

Excluir um endpoint não cancela ou reembolsa a reserva do plano de treinamento — a capacidade reservada permanece alocada até que a janela de reserva expire. Porém, se a reserva ainda está ativa e capacidade está disponível, você pode criar um novo endpoint usando o mesmo ARN de plano de treinamento.

Para fazer limpeza completa, você pode excluir a configuração do endpoint:

aws sagemaker delete-endpoint-config \
  --endpoint-config-name "ftp-ep-config"

Ao configurar sua reserva de plano de treinamento, lembre-se de que você está se comprometendo com uma janela de tempo fixa e será cobrado pelo período integral antecipadamente, independentemente do tempo real de uso. Verifique que seu cronograma estimado se alinhe com a duração da reserva escolhida. Se você concluir o trabalho antes do previsto, o custo não se altera — se adquirir uma reserva de 7 dias, pagará pelos sete dias mesmo que termine em cinco.

Considerações práticas e boas práticas

A estrutura de custo previsível e antecipado oferecida pelos planos de treinamento oferece vantagens significativas para orçamento e planejamento de projetos. Você sabe exatamente quanto gastará antes de começar.

Lembre-se que ao deletar seu endpoint, a reserva do plano de treinamento não é cancelada ou reembolsada. A capacidade reservada permanece alocada até a expiração da janela de reserva. Se você terminar antes e deseja usar o tempo remanescente, pode reimplantar um novo endpoint usando o mesmo ARN de plano de treinamento, desde que a reserva ainda esteja ativa e capacidade disponível.

Conclusão

Os planos de treinamento do SageMaker oferecem um caminho direto para reservar capacidade de GPU da família p e implantar endpoints de inferência com disponibilidade garantida. Essa abordagem é recomendada para workloads vinculados ao tempo — como avaliação de modelos, testes limitados de produção e cenários de picos de demanda previsíveis — onde capacidade previsível é essencial.

Como vimos na jornada da equipe de ciência de dados, o processo envolve identificar requisitos de capacidade, buscar ofertas disponíveis, criar uma reserva e referenciar essa reserva na configuração do endpoint para implantar durante a janela de reserva. A equipe completou sua avaliação de modelo com capacidade garantida, evitando a imprevisibilidade de disponibilidade sob demanda durante horas de pico.

Com suporte para atualizações de endpoint, escalabilidade dentro dos limites de reserva e migração perfeita para capacidade sob demanda, os planos de treinamento oferecem flexibilidade para gerenciar workloads de inferência enquanto mantêm controle sobre disponibilidade de GPU e custos. Quer você execute benchmarks competitivos de modelos, execute testes A/B limitados no tempo ou lide com picos de tráfego previsíveis, os planos de treinamento para endpoints de inferência fornecem a capacidade necessária com preço transparente e antecipado.

Fonte

Deploy SageMaker AI inference endpoints with set GPU capacity using training plans (https://aws.amazon.com/blogs/machine-learning/deploy-sagemaker-ai-inference-endpoints-with-set-gpu-capacity-using-training-plans/)