Construindo IA especializada sem perder inteligência geral: a mistura de dados do Nova Forge em ação

O dilema da especialização em inteligência artificial

Modelos de linguagem grandes (LLMs) demonstram excelente desempenho em tarefas genéricas, mas encontram dificuldades quando precisam trabalhar com contextos especializados que exigem compreensão de dados proprietários, processos internos e terminologias específicas de cada indústria. Para adaptar esses modelos a contextos organizacionais, as empresas utilizam uma técnica chamada fine-tuning supervisionado.

Existem duas abordagens principais para implementar o fine-tuning supervisionado. A primeira, chamada ajuste eficiente de parâmetros (PEFT – Parameter-Efficient Fine-Tuning), atualiza apenas um subconjunto dos parâmetros do modelo, oferecendo treinamento mais rápido e custos computacionais reduzidos, mantendo melhorias razoáveis de desempenho. A segunda, conhecida como ajuste full-rank, atualiza todos os parâmetros do modelo e incorpora mais conhecimento de domínio que a abordagem anterior.

Porém, o ajuste full-rank enfrenta um problema significativo: o esquecimento catastrófico. À medida que o modelo aprende padrões específicos do domínio, ele perde capacidades gerais como seguir instruções, raciocinar logicamente e acessar conhecimento amplo. Isso cria um dilema para as organizações: escolher entre expertise em domínio ou inteligência geral, limitando a utilidade do modelo em diferentes casos de uso empresariais.

A solução do Nova Forge

A AWS anunciou o Nova Forge, um serviço que permite construir modelos de fronteira personalizados usando a base da família Nova. Os clientes podem começar a partir de checkpoints iniciais do modelo, mesclar dados proprietários com dados de treinamento curados pela AWS, e hospedar seus modelos customizados de forma segura na plataforma AWS.

A principal inovação do Nova Forge reside em sua abordagem de mistura de dados durante o fine-tuning. Diferentemente de simplesmente treinar com dados de domínio específico, a plataforma combina esses dados com conjuntos de treinamento mantidos pela AWS. Essa estratégia oferece duas vantagens importantes: ganhos significativos de desempenho na tarefa especializada mantendo, simultaneamente, capacidades gerais próximas aos níveis originais.

Avaliação prática: classificação de feedback de clientes

O cenário empresarial

Imagine uma grande empresa de comércio eletrônico que recebe milhares de comentários de clientes diariamente. Esses comentários cobrem tópicos variados: qualidade de produtos, experiências de entrega, questões de pagamento, usabilidade do site e interações com atendimento ao cliente. Para operar eficientemente, a empresa precisa de um LLM capaz de classificar automaticamente cada comentário em categorias específicas de ação com alta precisão.

Cada classificação deve ser suficientemente específica para rotear a questão para o departamento correto — logística, finanças, desenvolvimento ou atendimento — e dispara workflows automáticos. Isso requer especialização de domínio. Simultaneamente, o modelo precisa ser capaz de realizar múltiplas funções em toda a organização: gerar respostas para clientes que exigem habilidades gerais de comunicação, realizar análises que requerem raciocínio matemático e lógico, e redigir documentação seguindo diretrizes específicas de formatação.

Metodologia de avaliação

Para testar se o Nova Forge consegue entregar especialização de domínio sem sacrificar capacidades gerais, foi projetado um framework de avaliação dupla medindo desempenho em duas dimensões.

Para avaliar o desempenho específico do domínio, utilizou-se um conjunto de dados real de voz do cliente derivado de avaliações reais, contendo 14.511 amostras de treinamento e 861 amostras de teste. O conjunto reflete dados empresariais em escala de produção e emprega uma taxonomia de quatro níveis, onde o nível 4 representa as categorias folha (alvos finais de classificação). Cada categoria inclui explicação descritiva de seu escopo.

O conjunto de dados apresenta desbalanceamento extremo de classes, típico de ambientes reais de feedback de clientes, o que representa desafio significativo para a acurácia de classificação. Os dados incluem um total de 15.372 comentários de clientes com estrutura hierárquica de 1.420 categorias em total.

Para avaliar capacidades de propósito geral, utilizou-se a divisão de teste pública do benchmark MMLU (Massive Multitask Language Understanding). Esse benchmark abrange disciplinas em humanidades, ciências sociais, ciências exatas e outras áreas importantes para aprendizado. Neste contexto, o MMLU serve como proxy para retenção de capacidades gerais, permitindo medir se o fine-tuning supervisionado melhora o desempenho de domínio ao custo de degradar comportamentos do modelo fundacional.

Resultados do desempenho base

Inicialmente, avaliou-se o desempenho fora da caixa em tarefas de classificação de voz do cliente, sem qualquer fine-tuning específico de tarefa. Foram selecionados para comparação o Amazon Nova 2 Lite, avaliado no Amazon Bedrock, e o Qwen3-30B-A3B, um modelo de código aberto implantado no Amazon Elastic Compute Cloud (Amazon EC2) com vLLM.

Os resultados iniciais revelaram que Nova 2 Lite e Qwen3-30B-A3B demonstram desempenho comparável nessa tarefa específica de domínio, com ambos alcançando pontuações F1 próximas a 0,39. Esses resultados também destacam a dificuldade inerente da tarefa: mesmo modelos fundacionais fortes enfrentam dificuldades com classificação de rótulos refinados quando nenhum dado específico de domínio é fornecido.

Impacto do fine-tuning supervisionado

Em seguida, aplicou-se fine-tuning supervisionado com atualização de todos os parâmetros usando dados de voz do cliente. Todos os modelos foram ajustados usando o mesmo conjunto de dados e configurações de treinamento comparáveis para garantir fairness na comparação.

O Nova 2 Lite foi ajustado usando Amazon SageMaker HyperPod em um cluster com quatro instâncias p5.48xlarge. O modelo Qwen3-30B foi ajustado em Amazon EC2 usando instâncias p6-b200.48xlarge.

Após o fine-tuning com dados de cliente apenas, o Nova 2 Lite alcançou melhoria substancial, com F1 aumentando de 0,387 para 0,5537 — um ganho absoluto de 17 pontos percentuais. Esse resultado coloca o modelo Nova no topo para essa tarefa e torna seu desempenho comparável ao do modelo Qwen3-30B ajustado. Esses resultados confirmam a efetividade do fine-tuning full-rank da Nova para cargas de trabalho complexas de classificação empresarial.

O custo: perda de capacidades gerais

Modelos ajustados para classificação de voz do cliente frequentemente são implantados além de uma única tarefa e integrados em fluxos de trabalho empresariais mais amplos. Preservar capacidades de propósito geral é importante para esses cenários.

Quando o Nova 2 Lite foi ajustado usando apenas dados de cliente, observou-se queda significativa na acurácia do MMLU, de 0,75 para 0,47, indicando perda de capacidades de propósito geral. A degradação foi ainda mais pronunciada para o modelo Qwen, que perdeu amplamente a capacidade de seguir instruções após o ajuste — um comportamento relacionado ao design do prompt de classificação, onde conhecimento de categoria é internalizado através do fine-tuning supervisionado.

A solução: mistura de dados do Nova

Notavelmente, quando a mistura de dados do Nova é aplicada durante o fine-tuning, o Nova 2 Lite retém desempenho geral próximo ao baseline. A acurácia MMLU permanece em 0,74, apenas 0,01 abaixo do baseline original, enquanto a melhoria F1 do VOC ainda alcança 12 pontos (0,38 → 0,50).

Isso valida que a mistura de dados do Nova é um mecanismo prático e efetivo para mitigar o esquecimento catastrófico enquanto preserva desempenho de domínio. A estratégia combina 75% de dados de cliente com 25% de dados curados da Nova durante o treinamento, permitindo que o modelo aprenda padrões específicos do domínio mantendo capacidades gerais fundamentais.

Recomendações práticas para implementação

Com base nesses achados, especialistas recomendam as seguintes práticas ao utilizar o Nova Forge:

  • Utilize fine-tuning supervisionado para maximizar desempenho em domínio para tarefas complexas ou altamente customizadas
  • Aplique mistura de dados do Nova quando modelos forem esperados para suportar múltiplos fluxos de trabalho de propósito geral em produção, reduzindo o risco de esquecimento catastrófico

Juntas, essas práticas equilibram customização de modelo com robustez em produção, permitindo implantação mais confiável de modelos ajustados em ambientes empresariais.

Capacidades adicionais e próximos passos

Além da mistura de dados, o Nova Forge oferece benefícios complementares. Clientes têm acesso a checkpoints do modelo em todas as fases do desenvolvimento e podem executar aprendizado por reforço com funções de recompensa customizadas em seus ambientes. Para experimentar essa abordagem, consulte a documentação do Nova Forge para detalhes técnicos completos.

O Amazon SageMaker HyperPod oferece, já nativamente, receitas de avaliação prontas que simplificam a avaliação MMLU com configuração mínima, tornando o processo de validação de retenção de capacidades gerais mais acessível para equipes de machine learning.

Conclusão

A apresentação do Nova Forge demonstra como organizações podem construir modelos de IA especializados sem sacrificar inteligência geral através das capacidades de mistura de dados. Dependendo dos casos de uso e objetivos de negócio específicos, a plataforma oferece uma abordagem equilibrada que resolve um dos maiores desafios do fine-tuning em ambientes empresariais: manter o modelo útil em múltiplos contextos enquanto o especializa para tarefas críticas.

Fonte

Building specialized AI without sacrificing intelligence: Nova Forge data mixing in action (https://aws.amazon.com/blogs/machine-learning/building-specialized-ai-without-sacrificing-intelligence-nova-forge-data-mixing-in-action/)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *