A arte e a ciência da otimização de hiperparâmetros no Amazon Nova Forge

Por que a customização de LLMs é mais difícil do que parece

Grandes Modelos de Linguagem (LLMs) se saem bem em tarefas genéricas, mas frequentemente tropeçam quando o assunto envolve dados proprietários, processos internos ou vocabulário técnico específico de um setor. Para endereçar esse problema, a AWS disponibiliza o Amazon Nova Forge, plataforma que permite construir modelos de fronteira customizados a partir do Amazon Nova. Com ela, é possível partir de checkpoints iniciais do modelo, combinar dados proprietários com datasets curados pela AWS e hospedar os modelos customizados com segurança na nuvem.

Um recurso central da plataforma é o data mixing (mistura de dados), que combina os dados de treinamento do cliente com conjuntos curados pela AWS. Essa abordagem ajuda o modelo a absorver o domínio específico sem perder as capacidades gerais de raciocínio, seguimento de instruções e linguagem — evitando o chamado esquecimento catastrófico, problema clássico que sabota customizações de domínio.

A AWS publicou um guia técnico detalhado sobre como navegar esse processo no Nova Forge, cobrindo tanto as decisões estratégicas (as escolhas qualitativas) quanto a configuração científica de parâmetros (as decisões baseadas em métricas). Este artigo apresenta os pontos principais desse material.

Os três desafios fundamentais do ajuste de hiperparâmetros

Desafio 1: Esquecimento catastrófico

Quando um modelo é treinado intensamente sobre dados de um domínio estreito, ele pode sobrescrever capacidades gerais adquiridas durante o pré-treinamento. O resultado é um modelo muito especializado, mas que perde a capacidade de seguir instruções, raciocinar sobre pedidos ambíguos ou manter conversas coerentes em múltiplos turnos. O Nova Forge endereça isso via data mixing e seleção de checkpoints.

Desafio 2: Encontrar a taxa de aprendizado certa

A taxa de aprendizado (learning rate) controla o quanto os pesos do modelo mudam a cada lote de exemplos de treinamento. É o hiperparâmetro mais sensível em todas as técnicas de customização. Uma taxa muito alta desestabiliza o treinamento; uma taxa muito baixa desperdiça computação com convergência lenta. O Nova Forge fornece valores padrão calibrados para cada técnica — e desviar desses padrões ao usar data mixing é a causa mais comum de instabilidade.

Desafio 3: Restrições de desempenho base para RFT

O Ajuste Fino por Reforço (RFT — Reinforcement Fine-Tuning) funciona gerando múltiplas respostas candidatas e pontuando-as com uma função de recompensa. Ele só opera bem dentro de uma faixa específica de acurácia base: se o modelo raramente acerta antes do treino, não há exemplos bons suficientes para o aprendizado guiado por recompensa. Se já acerta quase tudo, o ganho marginal é mínimo. Para casos de baixa acurácia base, a recomendação é rodar primeiro o Ajuste Fino Supervisionado (SFT — Supervised Fine-Tuning) para estabelecer a competência mínima necessária.

O pipeline de customização do Nova Forge

O Nova Forge oferece três técnicas complementares de customização, cada uma servindo a um propósito distinto:

Pré-treinamento Continuado (CPT — Continued Pre-Training): expande o conhecimento do modelo via aprendizado auto-supervisionado em grandes volumes de dados não rotulados de um domínio. Indicado quando o modelo precisa aprender vocabulário especializado, conceitos do setor ou conhecimento organizacional que não existe no modelo base.
Ajuste Fino Supervisionado (SFT — Supervised Fine-Tuning): customiza o comportamento do modelo usando pares de entrada-saída específicos para as tarefas-alvo. Indicado quando o modelo precisa seguir formatos de resposta específicos, adotar tons particulares ou executar tarefas estruturadas como classificação ou extração. O ideal é ter entre 1.000 e 10.000 demonstrações de alta qualidade por tarefa.
Ajuste Fino por Reforço (RFT — Reinforcement Fine-Tuning): direciona as saídas do modelo para resultados preferidos usando sinais de recompensa. O Nova Forge suporta ambientes de recompensa externos via AWS Lambda, permitindo lógica de verificação customizada para avaliação de qualidade específica do domínio.

Quando os três estágios são usados em sequência (CPT, depois SFT, depois RFT), os resultados são os mais fortes. Mas cada etapa é opcional — a escolha depende da disponibilidade de dados, do tipo de tarefa e do ponto de partida.

O Amazon SageMaker AI oferece diferentes ambientes para executar esse pipeline: o SageMaker Serverless traz uma experiência visual com provisionamento automático de computação; os jobs de treinamento do SageMaker AI (SMTJ) oferecem uma experiência totalmente gerenciada sem gestão de cluster; e o Amazon SageMaker HyperPod fornece ambientes especializados para cenários avançados de treinamento distribuído.

Decisões estratégicas que importam mais do que qualquer hiperparâmetro

Seleção de checkpoint (decisão mais impactante para CPT)

Para o CPT, a escolha do checkpoint tem mais impacto do que qualquer hiperparâmetro isolado. O Nova Forge oferece três opções de checkpoint, cada uma adequada a diferentes escalas de dados:

Checkpoints pré-treinados: máxima flexibilidade e convergência mais rápida. Funcionam melhor para CPT em larga escala, com orçamentos de tokens acima de 100 bilhões. Após o CPT com esse checkpoint, é obrigatório rodar SFT para tornar o modelo utilizável em tarefas.
Checkpoints mid-trained (treinamento intermediário): equilibram flexibilidade e alinhamento. Indicados para datasets de tamanho médio e funcionam bem com treinamento de posto completo (Full Rank) em conjuntos de dados grandes e estruturados.
Checkpoints pós-treinados: os mais resistentes a novos padrões, mas preservam o seguimento de instruções e as capacidades gerais. Recomendados para CPT em menor escala e como ponto de partida para métodos de ajuste fino eficientes em parâmetros, como LoRA.

Estratégia de data mixing

Sem data mixing, treinar apenas sobre dados de domínio estreito pode tornar o modelo instável. A recomendação da AWS é equilibrar os dados do cliente em torno de 50% do mix total para a maioria dos casos. Para SFT, sempre incluir a categoria “reasoning-instruction-following” no mix de dados Nova — essa categoria melhora significativamente o desempenho em benchmarks genéricos após o ajuste fino. Omiti-la é uma causa comum de degradação do raciocínio.

O data mixing é muito sensível à taxa de aprendizado. Desviar do padrão ao usar essa técnica é o erro mais frequente observado na prática.

Modo de treinamento: LoRA vs. Posto Completo (Full Rank)

O Nova Forge suporta dois modos de treinamento:

LoRA (Adaptação de Baixo Posto — Low-Rank Adaptation): atualiza apenas camadas adaptadoras, com menor custo computacional e iteração mais rápida. Compatível com inferência sob demanda. Alcança desempenho próximo ao Full Rank para a maioria das tarefas e é mais tolerante a hiperparâmetros subótimos. Use checkpoints pós-treinados como ponto de partida.
Full Rank (Posto Completo): atualiza todos os parâmetros do modelo, oferecendo máxima capacidade de adaptação. Exige o Amazon Bedrock Provisioned Throughput para implantação e maior computação durante o treinamento. Indicado quando o pipeline já foi validado e os requisitos de produção justificam o custo adicional.

A recomendação é começar sempre com LoRA para validar o pipeline, a qualidade dos dados e a função de recompensa (no caso do RFT), e só migrar para Full Rank quando a abordagem estiver confirmada.

Configuração de parâmetros

Taxa de aprendizado

Para CPT, começar pelos valores padrão do serviço. Para datasets muito grandes (acima de 1 trilhão de tokens), é possível usar uma taxa mais alta (como 1e-4) para acelerar a absorção de conhecimento, mas é necessário um estágio de redução gradual até aproximadamente 1e-6 antes de rodar o SFT. O parâmetro constant_steps controla quantos passos o modelo treina na taxa de pico antes desse estágio de redução.

Para SFT, manter os padrões do serviço — especialmente com data mixing. A taxa recomendada é 1e-5 para LoRA e 5e-6 para SFT de posto completo. Para RFT, começar pelos padrões e ajustar apenas em pequenos incrementos se necessário. Configurar os passos de aquecimento (warmup steps) em aproximadamente 15% do total de passos de treinamento.

Tamanho de lote e duração do treinamento

O tamanho de lote (global_batch_size) é o parâmetro de lote em todos os métodos de treinamento e ambientes. Para CPT, o alvo é de 2 a 20 milhões de tokens por passo. Processar no máximo uma época do dataset — múltiplas épocas com dados CPT limitados levam a overfitting e perda de capacidades gerais.

Para RFT, o parâmetro number_generation controla quantas respostas candidatas são geradas por prompt para pontuação pela função de recompensa. Atenção: a semântica do tamanho de lote difere entre ambientes. No SMTJ, global_batch_size significa prompts por passo (cada um gerando N candidatos). No SageMaker HyperPod, significa amostras totais (prompts multiplicados por gerações). Traduzir cuidadosamente ao mover configurações entre ambientes.

Parâmetros específicos de RFT

O RFT introduz parâmetros adicionais não presentes no CPT ou SFT:

Coeficiente de Perda KL-Divergência: restringe o quanto a política do modelo pode se afastar do comportamento original. Disponível apenas no SMTJ. Um coeficiente baixo permite exploração livre, mas arrisca atalhos que enganam a função de recompensa; um coeficiente alto impede aprendizado significativo.
Esforço de Raciocínio (Reasoning Effort): controla quanto raciocínio em cadeia de pensamento o modelo realiza antes de responder. Alto esforço produz melhor acurácia, mas aumenta latência e custo.
Limite de Concorrência Lambda (Lambda Concurrency Limit): disponível apenas no SMTJ, controla as funções Lambda paralelas para avaliação de recompensa.

Experimentos e resultados práticos

A AWS realizou uma série de experimentos de Otimização de Hiperparâmetros (HPO — Hyperparameter Optimization) usando o Amazon Nova 2.0 em benchmarks públicos, incluindo CoCoHD, MedReason e LLaVA-CoT. Os principais achados foram:

No benchmark MedReason, o SFT com LoRA usando rank 32, alpha 64, tamanho de lote 32 e taxa de aprendizado padrão (1e-5) produziu o melhor resultado: 63,54% de acurácia, uma melhora de 10,75% sobre o modelo base. Reduzir a taxa para 5e-6 prejudicou o desempenho sem proteger as capacidades gerais. Dobrar para 2 épocas na mesma taxa reduziu a acurácia para 61,42%, confirmando que o sobretreinamento em dados de domínio estreito degrada tanto o desempenho de domínio quanto o geral.
No benchmark LLaVA-CoT, onde o modelo base parte de apenas 16,22% de acurácia, a melhor configuração (rank 64, alpha 64) elevou a acurácia para 68,47% — uma melhora relativa de 322%. Para tarefas com baixa acurácia base, aumentar o rank é um ajuste de maior alavancagem do que aumentar o alpha.

A equipe de Ciência Aplicada da AWS China também demonstrou, em sua avaliação do Amazon Nova Forge, uma melhora de 17% no F1 Score em uma tarefa complexa de classificação de Voz do Cliente, mantendo pontuações MMLU próximas ao baseline.

Armadilhas comuns e como evitá-las

Pular o SFT antes do RFT: o RFT não produz melhora (ou degrada o desempenho) se o modelo não tiver competência base suficiente. Sempre rode SFT primeiro.
Desviar da taxa de aprendizado padrão com data mixing: é o erro mais comum. Instabilidade de treinamento com data mixing? A taxa de aprendizado é o primeiro suspeito.
Função de recompensa de baixa qualidade: uma função de recompensa ruim diminui a acurácia independentemente de qualquer outro ajuste. Refine a função antes de mudar qualquer parâmetro de treinamento. Valide com pelo menos dois avaliadores independentes.
Múltiplas épocas em dados CPT limitados: leva a overfitting e perda de capacidades gerais. Processe no máximo uma época.
Configurações de raciocínio incompatíveis: se treinar com raciocínio habilitado, inferir também com raciocínio habilitado.

Vale reforçar: qualidade de dados e qualidade da função de recompensa superam qualquer hiperparâmetro em importância. Antes de ajustar parâmetros de treinamento, otimize o pipeline de dados e a função de recompensa.

Métricas para monitorar o treinamento

Loss de treinamento: deve diminuir de forma constante, sem picos abruptos. Picos indicam problemas de taxa de aprendizado ou qualidade de dados.
Loss de validação: se aumenta enquanto o loss de treinamento diminui, há overfitting. Reduza as épocas, aumente a regularização ou adicione dados mais diversos.
KL Divergência (para RFT): picos súbitos indicam atualizações grandes e potencialmente instáveis. Aumente o coeficiente de perda KL se isso ocorrer.
Métricas de recompensa (para RFT): devem melhorar de forma constante. Melhora rápida seguida de platô ou queda pode indicar que o modelo está “enganando” a função de recompensa.

Recursos para começar

Para explorar o Amazon Nova Forge na prática, a AWS disponibiliza a documentação do Amazon Nova e o repositório de receitas do SageMaker HyperPod no GitHub. Para exemplos práticos de data mixing, o post sobre data mixing no Nova Forge é um bom ponto de partida. Para um mergulho mais profundo no RFT, o post Reinforcement fine-tuning for Amazon Nova: Teaching AI through feedback complementa bem o material.

Fonte

The art and science of hyperparameter optimization on Amazon Nova Forge (https://aws.amazon.com/blogs/machine-learning/the-art-and-science-of-hyperparameter-optimization-on-amazon-nova-forge/)