A Transição para Inferência Eficiente em Larga Escala
Com o avanço de sistemas de IA baseados em agentes e raciocínio complexo, os modelos de linguagem grandes (LLMs) passaram a gerar dez vezes mais tokens através de cadeias de raciocínio intricadas, comparado a respostas simples. Esses fluxos de trabalho não apenas aumentam exponencialmente a carga computacional, mas criam demandas altamente variáveis que comprometem a performance geral e a experiência do usuário.
À medida que o mercado avança da fase de prototipagem para implementações em produção, a eficiência da inferência tornou-se o fator limitante mais crítico. A AWS reconheceu esse desafio e estabeleceu uma parceria com a comunidade do llm-d para oferecer uma solução integrada que melhora significativamente o aproveitamento de recursos e reduz custos operacionais.
Compreendendo as Fases da Inferência em LLMs
A execução de um modelo de linguagem envolve duas fases fundamentalmente distintas. Na fase de prefill, o sistema processa todo o prompt de entrada em paralelo, gerando o conjunto inicial de entradas de cache chave-valor (KV). Esta fase é limitada pelo poder computacional disponível. Na fase de decode, o modelo gera um token por vez de forma autorregressiva, exigindo acesso constante aos pesos do modelo e ao cache KV em crescimento — característica que torna essa fase dependente de largura de banda de memória.
Como as requisições de inferência variam consideravelmente em comprimento de entrada e saída, otimizar o uso de recursos em ambas as fases simultaneamente representava um desafio significativo. Abordagens tradicionais, que implantam modelos em infraestrutura pré-determinada, resultam em utilização subótima, com GPUs ora subutilizadas ora sobrecarregadas conforme a fase de execução.
O que é llm-d?
llm-d é um framework de código aberto nativo do Kubernetes para serviços distribuídos de LLMs. Construído sobre o vLLM, o llm-d estende o mecanismo de inferência principal com orquestração pronta para produção, agendamento avançado e suporte a interconexão de alta performance. Em vez de tratar a inferência como um problema de execução em nó único, o llm-d introduz padrões arquiteturais para serviços desagregados — separando e otimizando etapas como prefill, decode e gerenciamento de cache KV através de recursos de GPU distribuídos.
O framework oferece “caminhos bem definidos” — arquiteturas de referência que empacotam estratégias de otimização comprovadas para diferentes objetivos de performance e escalabilidade.
Capacidades Principais do llm-d
Agendamento Inteligente de Inferência
Em ambientes de nó único, mecanismos como o vLLM utilizam cache de prefixo automático para reduzir computação redundante reutilizando entradas de cache KV anteriores. Porém, em ambientes distribuídos com múltiplas réplicas, as suposições sobre quais blocos de cache residem em quais GPUs deixam de valer.
O agendador do llm-d resolve isso mantendo visibilidade sobre o estado do cache em todas as réplicas e roteando requisições de forma consciente dessa localidade. Para cargas de trabalho com alto reuso de prefixo, como conversas multi-turno ou fluxos agentic, esse roteamento consciente do cache resulta em melhorias significativas de throughput e latência.
Desagregação de Prefill e Decode
Ao separar as fases de prefill e decode em infraestrutura dedicada, torna-se possível otimizar cada uma independentemente. Se a saída do seu modelo tende a ser longa comparada à entrada, você pode alocar mais GPUs para decode sem aumentar o custo de prefill. Também é possível colocar essas fases em tipos diferentes de hardware, cada um sintonizado para seu perfil de carga.

No llm-d, servidores de prefill são otimizados para processar prompts de entrada com eficiência, enquanto servidores de decode focam em gerar tokens com baixa latência. O agendador inteligente decide quais instâncias devem receber uma dada requisição, e a transferência é coordenada através de um sidecar executado junto às instâncias de decode. Esse componente orquestra transferências ponto-a-ponto de cache KV sobre interconexões rápidas, garantindo que o servidor de decode receba o contexto necessário com sobrecarga mínima.
Paralelismo Amplo de Especialistas
Para modelos de Mistura de Especialistas (MoE) como DeepSeek-R1, Qwen3.5, Minimax e Kimi K2.5, o llm-d oferece padrões de implantação otimizados que utilizam paralelismo de dados e paralelismo de especialistas. Essa abordagem permite distribuir especialistas horizontalmente entre múltiplos nós mantendo performance, reduzindo latência e aumentando throughput para essas arquiteturas complexas.
Cache de Prefixo em Camadas
O cache de prefixo evita computações repetitivas e caras do cache KV, melhorando métricas como tempo até primeiro token (TTFT) e throughput geral. Porém, mecanismos nativos como os do vLLM estão restritos à memória de GPU disponível em cada instância. O llm-d expande o tamanho efetivo do cache oferecendo um caminho de cache em camadas que descarrega entradas de cache KV da memória GPU para outros níveis de armazenamento, como memória CPU ou disco local.
Infraestrutura na AWS: SageMaker HyperPod e EKS
O SageMaker HyperPod oferece infraestrutura Kubernetes resiliente e de alta performance otimizada para treinamento e inferência de modelos em larga escala. Com clusters persistentes de alta performance e monitoramento de saúde integrado que detecta e remedia falhas de hardware proativamente, a plataforma fornece a fundação ideal para a arquitetura nativa do Kubernetes do llm-d.

Componentes Técnicos da Comunicação
A comunicação entre GPUs em nó único ocorre via NVLink e NVSwitch. Para comunicação entre nós, o llm-d aproveita componentes avançados. A Biblioteca de Transferência de Inferência NVIDIA (NIXL) é propositalmente construída para transferências de dados ponto-a-ponto eficientes — movimentação de dados de cache KV de nós de prefill para nós de decode. NIXL fornece uma camada de abstração sobre diferentes métodos de transferência, incluindo libfabric para interfaces EFA, UCCL e GPUDirect Storage.
O Unified Communication X (UCX) fornece o framework de comunicação de nível inferior que NIXL utiliza. UCX suporta operações RDMA que habilitam rede de kernel-bypass com zero-cópia — crítico para cargas de trabalho de inferência onde latência é essencial.
O Adaptador de Tecido Elástico (EFA) oferece uma interface de rede de alta performance na AWS. UCX possui suporte nativo para EFA através da interface libfabric, permitindo que quando o llm-d implanta vLLM em múltiplos nós, a pilha de comunicação subjacente aproveite completamente o networking de baixa latência e alta largura de banda do EFA sem mudanças no nível da aplicação.
Um Balanceador de Carga é provisionado para conectar-se ao Gateway de Inferência (IGW), que implementa agendamento inteligente de requisições e roteamento baseado em localidade de cache e carga do servidor. O Gerenciador de Cache KV habilita roteamento consciente de cache e gerenciamento distribuído do cache, rastreando quais blocos residem em quais nós.
Boas Práticas de Implementação
A desagregação de inferência permite escalar nós de prefill independentemente dos nós de decode, sintonizando performance para suas cargas de trabalho. Cargas com sequências de entrada longas e sequências de saída curtas são intensivas em prefill — a desagregação permite expandir pods de prefill para processar mais requisições sem custo adicional significativo.
A desagregação funciona melhor para modelos maiores, sequências de entrada longas e arquiteturas MoE. O llm-d oferece caminhos para roteamento inteligente de tráfego para pods específicos baseado em métricas como filas de requisição e eventos de cache KV, melhorando throughput e taxa de acertos de cache.
Implantação: Pré-requisitos e Setup
Para implantar o llm-d, você precisará ter configurado localmente:
- AWS Command Line Interface (AWS CLI)
- kubectl
- Conta HuggingFace para criar um token de acesso
- Helm
- helmfile
- Acesso a um cluster SageMaker HyperPod ou EKS
O llm-d utiliza a Extensão de API de Gateway de Inferência, que requer instalação de CRDs e uma implementação como Istio. Clone o repositório e navegue até o auxiliar de instalação:
git clone https://github.com/llm-d/llm-d.git
cd guides/prereq/gateway-provider
./install-gateway-provider-dependencies.sh
helmfile apply -f istio.helmfile.yaml
Para implantar com desagregação prefill-decode, configure os valores do pod para usar a imagem compatível com AWS do llm-d e ativar NIXL com libfabric como backend de transporte:
containers:
- name: "vllm"
image: ghcr.io/llm-d/llm-d-aws:v0.5.1
args:
- "--block-size"
- "128"
- "--kv-transfer-config"
- '{"kv_connector":"NixlConnector", "kv_role":"kv_both","kv_connector_extra_config": {"backends": ["LIBFABRIC"]}}'
- "--disable-uvicorn-access-log"
- "--max-model-len"
- "32000"
Configure o número de interfaces EFA baseado nas GPUs por pod. Por exemplo, uma instância p5.48xlarge possui 8 GPUs H100 com 32 interfaces EFA — configure cada réplica com 4 interfaces EFA por GPU.
Resultados de Performance
A AWS testou a desagregação prefill/decode do llm-d em uma instância ml.p6-b200.48xlarge, comparando contra uma implantação padrão de vLLM. O teste utilizou 4 pods de prefill com paralelismo de tensor 1 e 1 pod de decode com paralelismo de tensor 4, conectados via NIXL com libfabric como transporte EFA.

Os testes demonstraram que a desagregação prefill/decode do llm-d aumenta a taxa de tokens por segundo em até 70% conforme a concorrência aumenta, comparado a uma implantação padrão de vLLM com sequência de entrada de 1024 tokens e saída de 1024 tokens sob concorrência de até 128 requisições simultâneas. Esse perfil de performance varia conforme a configuração do vLLM e a carga de trabalho específica. Ajustar a proporção prefill/decode e outros parâmetros disponíveis pode trazer ganhos ainda maiores.
Conclusão
O llm-d oferece caminhos comprovados para métodos de implantação como desagregação prefill/decode, roteamento consciente de cache KV e cache em camadas. Essas capacidades permitem otimizações significativas na performance, utilização de recursos e eficiência operacional ao servir modelos em larga escala. Você pode explorar a documentação completa e arquitetura do llm-d para entender melhor como implementar essas estratégias na sua infraestrutura AWS.
Fonte
Introducing Disaggregated Inference on AWS powered by llm-d (https://aws.amazon.com/blogs/machine-learning/introducing-disaggregated-inference-on-aws-powered-by-llm-d/)
Leave a Reply