O problema do escalonamento lento em inferência de IA generativa
Quem trabalha com modelos de IA generativa em produção sabe que o escalonamento rápido é um desafio real. Quando uma aplicação precisa subir novas instâncias para atender picos de demanda, cada segundo de latência importa — e o processo envolve várias etapas sequenciais que consomem tempo considerável.
A Amazon SageMaker AI vem trabalhando sistematicamente para reduzir essa latência em cada etapa do escalonamento: detectar a necessidade de escalar, provisionar instâncias, baixar imagens de contêiner, buscar os pesos do modelo e iniciar os contêineres. Agora, a AWS anuncia mais um avanço nessa jornada: o cache de imagens de contêiner para inferência no SageMaker AI, capaz de reduzir a latência de escalonamento em até 2x para modelos de IA generativa.
O que acontece quando uma nova instância é iniciada
Para entender o impacto do novo recurso, vale entender as etapas que ocorrem quando o SageMaker AI precisa subir uma nova instância durante um evento de escalonamento:
- Provisionamento da instância: uma nova instância do Amazon EC2 (Elastic Compute Cloud) é inicializada.
- Download da imagem do contêiner: a imagem é baixada do Amazon ECR (Elastic Container Registry).
- Download dos artefatos do modelo: os pesos do modelo são buscados no Amazon S3 (Simple Storage Service).
- Inicialização do contêiner e verificações de saúde: o servidor de inferência carrega o modelo na memória e passa pelos testes de prontidão.
Vale notar que o download da imagem do contêiner e o download dos artefatos do modelo acontecem em paralelo. Mesmo assim, o download da imagem do contêiner costuma ser um dos maiores gargalos, especialmente em workloads de IA generativa. Esses workloads utilizam contêineres grandes — como o SageMaker LMI (Large Model Inference, com tecnologia vLLM), vLLM e NVIDIA Triton.
Como o cache de contêiner resolve o gargalo
Com o cache de imagens de contêiner, o SageMaker AI elimina o tempo de download da imagem mesmo quando novas instâncias precisam ser criadas — o cenário onde a solução anterior de cache baseada em instance store não conseguia ajudar.
O exemplo prático divulgado pela AWS ilustra bem o ganho. Usando o modelo Qwen3-8B (16 GB) em uma instância ml.g6.2xlarge com o contêiner LMI (17,7 GB comprimido):
- Antes do cache: download da imagem do ECR levava 333 segundos; download dos artefatos do modelo, 168 segundos. Como as duas operações correm em paralelo, a latência total era de 525 segundos.
- Depois do cache: a imagem já está disponível localmente (0 segundos); o download do modelo cai para 77 segundos — porque agora ele não precisa competir pela largura de banda de rede com o download da imagem. A latência total cai para 258 segundos.
O resultado é uma redução de aproximadamente 51% na latência de inicialização. E se, por algum motivo, a imagem em cache não estiver disponível, o SageMaker AI recorre automaticamente ao download direto do ECR — ou seja, o escalonamento nunca fica bloqueado.

Compatibilidade com inference components
O cache de contêiner também funciona com inference components. Quando múltiplos inference components são implantados, o cache armazena cada imagem de contêiner única referenciada por eles.
O recurso cobre dois padrões comuns de endpoint:
- Endpoints de modelo único: o escalonamento é feito subindo instâncias adicionais, cada uma hospedando sua própria cópia do modelo.
- Endpoints baseados em inference components: novas instâncias são adicionadas apenas quando nenhuma instância existente tem capacidade suficiente para hospedar um inference component adicional.
Isolamento e segurança
O cache de imagens de contêiner mantém as mesmas garantias de isolamento entre tenants que o SageMaker AI já oferece. Cada cache é dedicado a um único endpoint de cliente e não é compartilhado entre contas AWS ou entre endpoints diferentes. Quando um endpoint é excluído, o cache de imagens associado é automaticamente removido.
Resultados observados em clientes reais
A AWS compartilhou resultados de clientes que testaram o recurso em acesso antecipado. Os dados mostram melhorias expressivas na latência P50 (mediana) de escalonamento:
- Cliente 1 — instância
ml.g4dn.xlarge, imagem de 15,7 GB, modelo de 0 GB: de 381s para 134s (-65%) - Cliente 2 — instância
ml.g5.2xlarge, imagem de 17,5 GB, modelo de 5,8 GB: de 346s para 164s (-52%) - Cliente 3 — instância
ml.g5.xlarge, imagem de 10,6 GB, modelo de 6,5 GB: de 346s para 216s (-38%)
A magnitude da melhoria varia conforme o tipo de instância, o tamanho da imagem do contêiner e o tamanho do modelo.
As três otimizações de auto scaling combinadas
O cache de contêiner é o terceiro recurso de uma série de otimizações de auto scaling que a AWS vem lançando para o SageMaker AI. Cada um remove uma fonte diferente de atraso no escalonamento:
- Métricas sub-minuto: as métricas sub-minuto do Amazon CloudWatch detectam a necessidade de escalonamento até 6x mais rápido que os mecanismos tradicionais. Para ativar, configure uma política de rastreamento de alvo com
ConcurrentRequestsPerModelouConcurrentRequestsPerCopy. - Cache de dados para inference components: a solução de cache de dados para inference components reduz o tempo de download de imagem ao adicionar cópias de modelos em instâncias já em execução. Não exige configuração manual — ativa automaticamente para endpoints baseados em inference components em tipos de instância aceleradora suportados.
- Cache de imagem de contêiner (novo): elimina o tempo de download da imagem ao subir novas instâncias. Também ativa automaticamente para qualquer endpoint que use tipos de instância aceleradora suportados.
Juntas, essas três camadas cobrem diferentes eixos do escalonamento. As métricas sub-minuto detectam a demanda mais cedo, disparando decisões de escalonamento em segundos. O cache de dados para inference components atua quando uma nova cópia do modelo é alocada em uma instância já existente. O cache de imagem de contêiner entra em ação quando é necessário subir uma instância completamente nova.
Configurações suportadas e disponibilidade
O cache de contêiner é suportado para tipos de instância aceleradora nos endpoints de inferência do SageMaker AI. Funciona com qualquer imagem de contêiner hospedada no Amazon ECR, incluindo imagens customizadas — sem necessidade de modificar o contêiner.
O recurso está disponível em todas as regiões comerciais da AWS onde a inferência do SageMaker AI é suportada. Para a lista atualizada de tipos de instância e regiões, consulte a documentação do Amazon SageMaker AI.
Como começar
Para aproveitar o cache de contêiner, basta implantar os workloads de IA generativa em um endpoint de inferência do SageMaker AI em um tipo de instância aceleradora suportado. O cache de contêiner ativa automaticamente — sem nenhuma configuração adicional. É possível criar ou atualizar endpoints diretamente pelo Console de Gerenciamento da AWS. Para mais detalhes sobre tipos de instância e regiões suportadas, consulte a documentação do Amazon SageMaker AI.
Conclusão
Com o cache de imagens de contêiner, o SageMaker AI completa um conjunto de otimizações de auto scaling voltadas especificamente para inferência de IA generativa. A combinação das três camadas — métricas sub-minuto, cache de dados para inference components e cache de imagem de contêiner — transforma o comportamento de escalonamento: o que antes levava minutos de latência de cold start passa a ser uma resposta rápida e previsível. Para aplicações de IA generativa que precisam lidar com picos de tráfego sem degradar a experiência do usuário, essa evolução é bastante relevante.
Fonte
Introducing container caching in Amazon SageMaker AI for faster model scaling (https://aws.amazon.com/blogs/machine-learning/introducing-container-caching-in-amazon-sagemaker-ai-for-faster-model-scaling/)
Leave a Reply