O problema: levar um modelo à produção leva semanas
Organizações estão correndo para colocar modelos de IA generativa em produção — seja para assistentes inteligentes, ferramentas de geração de código, motores de conteúdo ou aplicações voltadas ao cliente. Mas o processo de implantação continua sendo um obstáculo real: encontrar a combinação certa de tipo de instância GPU, contêiner de serving, estratégia de paralelismo e técnicas de otimização pode consumir de duas a três semanas por modelo, exigindo expertise em infraestrutura de GPU que a maioria das equipes simplesmente não tem internamente.
O espaço de decisão é enorme. Uma única implantação envolve escolher entre mais de uma dúzia de tipos de instância GPU, múltiplos contêineres de serving, diferentes graus de paralelismo e um conjunto crescente de técnicas como o speculative decoding. Todas essas variáveis interagem entre si, e não havia orientação validada para estreitar a busca.
O resultado costuma ser o mesmo: equipes provisionam instâncias, implantam o modelo, rodam testes de carga, analisam resultados e repetem o ciclo. Sem clareza sobre se existe uma opção melhor e mais econômica, muitas acabam superprovisionando — escolhendo infraestrutura de GPU mais cara do que o necessário. O custo desperdiçado se acumula a cada modelo implantado e a cada mês que o endpoint fica ativo.

A solução: recomendações otimizadas de inferência no SageMaker AI
A AWS anunciou que o Amazon SageMaker AI agora suporta recomendações otimizadas de inferência para IA generativa. O recurso entrega configurações de implantação validadas com métricas de desempenho reais, permitindo que as equipes se concentrem em construir modelos precisos — e não em gerenciar infraestrutura.
Para o benchmarking, a AWS avaliou diversas ferramentas e optou pelo NVIDIA AIPerf, um componente modular do NVIDIA Dynamo, por expor métricas detalhadas e consistentes, suportar cargas de trabalho diversas e oferecer controles de concorrência e opções de dataset que facilitam iterações rápidas com configuração mínima.
Segundo Eliuth Triana, Gerente de Relações com Desenvolvedores da NVIDIA: “Com a integração de componentes modulares do framework de inferência distribuída open source NVIDIA Dynamo diretamente no Amazon SageMaker AI, a AWS está tornando mais fácil para empresas implantarem modelos de IA generativa com confiança. A integração do NVIDIA AIPerf demonstra como o benchmarking padronizado pode eliminar semanas de testes manuais e entregar configurações validadas e prontas para produção aos usuários finais.”
Como funciona o processo em três etapas
O fluxo é direto: você traz seu modelo de IA generativa, define os padrões de tráfego esperados e especifica um único objetivo de desempenho — otimizar custo, minimizar latência ou maximizar throughput. A partir daí, o SageMaker AI assume o controle em três estágios.
Etapa 1: Redução do espaço de configurações
O SageMaker AI analisa a arquitetura do modelo, seu tamanho e requisitos de memória para identificar os tipos de instância e estratégias de paralelismo que podem realisticamente atingir o objetivo definido. Em vez de testar todas as combinações possíveis, o serviço estreita a busca para as configurações que valem a pena avaliar — considerando até três tipos de instância selecionados pelo usuário.
Etapa 2: Aplicação de otimizações alinhadas ao objetivo
Com base no objetivo de desempenho escolhido, o SageMaker AI aplica automaticamente as técnicas de otimização mais adequadas a cada configuração candidata:
- Para objetivos de throughput: treina modelos de speculative decoding (como o EAGLE 3.0), que permitem ao modelo gerar múltiplos tokens por passagem de avanço, aumentando significativamente os tokens por segundo.
- Para objetivos de latência: ajusta kernels de computação para reduzir o tempo de processamento por token, diminuindo o tempo até o primeiro token (TTFT — Time to First Token).
- Paralelismo tensorial é aplicado com base no tamanho do modelo e na capacidade da instância, distribuindo o modelo entre as GPUs disponíveis para lidar com modelos que excedem a memória de uma única GPU.
Não é necessário saber qual técnica é a mais adequada para cada objetivo — o SageMaker AI seleciona e aplica as otimizações automaticamente.
Etapa 3: Benchmarking e retorno de recomendações ranqueadas
O SageMaker AI faz o benchmarking de cada configuração otimizada em infraestrutura GPU real usando o NVIDIA AIPerf, medindo TTFT, latência entre tokens (ITL — Inter-Token Latency), latência de requisição nos percentis P50/P90/P99, throughput e custo. O resultado é um conjunto de recomendações ranqueadas e prontas para implantação, com métricas validadas para cada configuração e tipo de instância.

O fluxo de trabalho na prática
Do ponto de vista do usuário, o processo via APIs do SageMaker AI segue estas etapas:
- Prepare seu modelo: traga o modelo generativo a partir do Amazon S3 (Serviço de Armazenamento Simples) ou do SageMaker Model Registry, incluindo checkpoints do Hugging Face com pesos SafeTensor, modelos base e modelos customizados ou ajustados com seus próprios dados.
- Defina sua carga de trabalho (opcional): descreva os padrões de tráfego esperados, incluindo distribuições de tokens de entrada e saída e níveis de concorrência. Você pode fornecer essas informações diretamente ou usar um dataset representativo do Amazon S3.
- Defina seu objetivo de otimização: escolha um único objetivo — otimizar custo, minimizar latência ou maximizar throughput — e selecione até três tipos de instância para comparar.
- Revise as recomendações ranqueadas: o SageMaker AI retorna configurações prontas para implantação com métricas validadas como TTFT, latência entre tokens, latência de requisição nos percentis P50/P90/P99, throughput e projeções de custo.
- Implante a configuração escolhida: implante a configuração selecionada em um endpoint de inferência do SageMaker de forma programática via API.
Adicionalmente, é possível fazer benchmarking de endpoints de produção existentes para validar o desempenho atual ou compará-los com novas configurações. O SageMaker AI pode utilizar Reservas de ML existentes (Flexible Training Plans) sem custo adicional de computação, ou provisionar instâncias sob demanda automaticamente.
Rigor no benchmarking com NVIDIA AIPerf
Cada recomendação gerada pelo SageMaker AI é baseada em medições reais — não em estimativas ou simulações. Internamente, o serviço usa o NVIDIA AIPerf, uma ferramenta open source de benchmarking que mede métricas-chave de inferência: TTFT, latência entre tokens, throughput e requisições por segundo.
A AWS contribuiu diretamente para o AIPerf com melhorias que fortalecem a base estatística dos resultados. Essas contribuições incluem:
- Relatório de confiança multi-execução: permite medir a variância entre execuções repetidas do benchmark e quantificar a qualidade dos resultados com intervalos de confiança estatisticamente fundamentados — indo além de números frágeis de execução única.
- Convergência adaptativa e parada antecipada: os benchmarks param assim que as métricas se estabilizam, em vez de sempre rodar um número fixo de tentativas. Isso reduz o custo de benchmarking e acelera o tempo até os resultados sem sacrificar o rigor.
Otimizações em ação: exemplo real
Para ilustrar o impacto prático, considere um exemplo concreto. Um cliente implantando o GPT-OSS-20B em uma única instância ml.p5en.48xlarge (H100) seleciona “maximizar throughput” como objetivo de desempenho. O SageMaker AI identifica o speculative decoding como a otimização adequada para esse objetivo, treina um modelo rascunho EAGLE 3.0, aplica-o à configuração de serving e faz o benchmarking tanto da linha de base quanto da configuração otimizada em infraestrutura GPU real.

O resultado: após a otimização de throughput, a mesma instância entrega 2x mais tokens/s com 1.000ms de latência — o que significa servir o dobro de usuários no mesmo hardware, efetivamente reduzindo o custo de inferência por token pela metade. Essa é exatamente a otimização que o SageMaker AI aplica automaticamente quando o objetivo de throughput é selecionado, sem que o usuário precise saber qual técnica usar, como treinar um modelo rascunho ou como configurá-lo para o modelo e hardware específicos.
Casos de uso
- Validação pré-implantação: otimize e faça benchmarking de um novo modelo antes de comprometer com uma implantação em produção.
- Teste de regressão após atualizações: valide o desempenho após uma atualização de contêiner, upgrade de framework ou nova versão de biblioteca de serving.
- Redimensionamento quando as condições mudam: quando os padrões de tráfego mudam ou novos tipos de instância ficam disponíveis, reexecute as recomendações em horas em vez de reiniciar um processo manual de semanas.
- Comparação de modelos: compare desempenho e custo de diferentes variantes de modelo entre tipos de instância para fazer uma seleção informada antes da implantação em produção.
- Otimização de custos: faça benchmarking de endpoints de produção existentes para identificar infraestrutura superprovisionada e reduzir gastos recorrentes com inferência.
Implantando a partir das recomendações
Após a conclusão do job de recomendação, o resultado é um SageMaker Model Package — um recurso versionado que agrupa todas as configurações de implantação específicas por instância em um único artefato. Para implantar, é necessário converter o Model Package em um Deployable Model chamando CreateModel com o ModelPackageName e o InferenceSpecificationName para a instância desejada, depois criar uma configuração de endpoint e implantar como um endpoint de tempo real padrão do SageMaker ou como um Inference Component.
Um único Recommendation Job produz um Model Package com múltiplas InferenceSpecifications — uma por tipo de instância avaliado — permitindo escolher a configuração que melhor atende ao objetivo de latência, throughput ou custo e implantá-la diretamente sem reexecutar o job.
O código abaixo ilustra o fluxo completo, exatamente como documentado pela AWS:
# Selecionar a recomendação desejada
resp = client.describe_ai_recommendation_job(
AIRecommendationJobName="my-recommendation-job"
)
rec = resp["Recommendations"][0]
model_package_arn = rec["ModelDetails"]["ModelPackageArn"]
inference_spec_name = rec["ModelDetails"]["InferenceSpecificationName"]
instance_type = rec["InstanceDetails"][0]["InstanceType"]
print(f"Model Package : {model_package_arn}")
print(f"Inference Spec: {inference_spec_name}")
print(f"Instance Type : {instance_type}")
# Converter Model Package → Deployable Model
sm.create_model(
ModelName="oss20b-deployable-model",
ModelPackageName=model_package_arn,
InferenceSpecificationName=inference_spec_name,
ExecutionRoleArn="arn:aws:iam::123456789012:role/SageMakerExecutionRole",
)
# Criar configuração de endpoint
sm.create_endpoint_config(
EndpointConfigName="oss20b-endpoint-config",
ProductionVariants=[
{
"VariantName": "AllTraffic",
"ModelName": "oss20b-deployable-model",
"InstanceType": instance_type,
"InitialInstanceCount": 1,
}
],
)
# Implantar e aguardar
sm.create_endpoint(
EndpointName="oss20b-endpoint",
EndpointConfigName="oss20b-endpoint-config",
)
Saídas do benchmarking
Um job de benchmarking de IA executa testes de desempenho contra endpoints de inferência do SageMaker AI usando uma configuração de carga de trabalho predefinida. Ao concluir, os resultados são armazenados no caminho de saída do Amazon S3 especificado. Após extrair o arquivo zip de saída, a estrutura de arquivos gerada inclui:
profile_export_aiperf.jsoneprofile_export_aiperf.csv: métricas agregadas, incluindo percentis de latência (P50, P90, P99), throughput de tokens de saída, TTFT e ITL.profile_export.jsonl: dados brutos por requisição — cada requisição individual registrada com sua própria latência, contagem de tokens e timestamp, útil para análises próprias ou identificação de outliers.inputs.json: prompts enviados durante a execução.benchmark_summary.txt: resumo de conclusão.plots/: visualizações incluindo linha do tempo de TTFT por requisição e TTFT agregado ao longo da execução.logs/aiperf.log: log completo de execução do AIPerf.
A AWS disponibilizou um notebook de exemplo no GitHub que faz benchmarking do modelo openai/gpt-oss-20b implantado em uma instância ml.g6.12xlarge (4× GPUs NVIDIA L40S), servido via contêiner vLLM como Inference Component. O notebook simula uma carga de trabalho realista com prompts sintéticos: 300 requisições com 10 usuários concorrentes, aproximadamente 500 tokens de entrada e 150 de saída por requisição.
Preços e disponibilidade
Não há custo adicional para gerar as recomendações otimizadas de inferência para IA generativa. Os clientes incorrem nos custos padrão de computação para os jobs de otimização que geram as configurações otimizadas e para os endpoints provisionados durante o benchmarking. Clientes com Reservas de ML existentes (Flexible Training Plans) podem executar o benchmarking em sua capacidade reservada sem custo adicional — o único custo é o próprio job de otimização.
O recurso está disponível hoje em sete regiões AWS: Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Leste dos EUA (Ohio), Ásia-Pacífico (Tóquio), Europa (Irlanda), Ásia-Pacífico (Cingapura) e Europa (Frankfurt). O acesso é feito pelas APIs do SageMaker AI. Para detalhes de implementação, walkthroughs de API e exemplos de código, consulte a documentação do SageMaker AI e os notebooks de exemplo no GitHub.
Fonte
Amazon SageMaker AI now supports optimized generative AI inference recommendations (https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-ai-now-supports-optimized-generative-ai-inference-recommendations/)
Leave a Reply