Avaliando Modelos de IA Generativa com Juiz LLM Baseado em Rubrica da Amazon Nova no SageMaker AI (Parte 2)

O Juiz LLM Baseado em Rubrica: Transformando a Avaliação de Modelos de IA

Em um artigo anterior, foi apresentado o recurso de juiz LLM da Amazon Nova no Amazon SageMaker AI, uma ferramenta especializada de avaliação que permite medir sistematicamente o desempenho relativo de sistemas de IA generativa. Agora, o SageMaker AI oferece uma versão aprimorada: um juiz LLM baseado em rubrica, alimentado pela Amazon Nova, que muda fundamentalmente como as equipes de desenvolvimento avaliam seus modelos.

Diferentemente de abordagens tradicionais que usam as mesmas regras genéricas para todas as tarefas, este juiz gera automaticamente critérios de avaliação específicos para cada prompt individual. Isso permite que desenvolvedores de IA generativa e engenheiros de aprendizado de máquina criem automaticamente critérios precisos e contextualizados para seus modelos, eliminando a necessidade de escrever manualmente regras de avaliação para cada caso de uso.

Entendendo o Juiz Baseado em Rubrica

O que é uma Rubrica na Avaliação de IA?

Uma rubrica é um guia de pontuação usado para avaliar desempenho. Historicamente, avaliar um modelo de IA exigia que humanos escrevessem manualmente um checklist de regras estáticas — por exemplo, “A resposta é educada?” ou “A resposta é concisa?” — que se aplicavam a todas as tarefas.

O desafio dessa abordagem é que regras genéricas não se adaptam bem a diferentes contextos. Uma tarefa de escrita criativa requer critérios completamente diferentes de uma tarefa de codificação ou resumo de documentos legais. O juiz alimentado pela Amazon Nova resolve esse problema criando um checklist personalizado para cada interação específica.

Quando um usuário envia um prompt específico — por exemplo, “Resuma este documento médico para um paciente” — o juiz analisa esse prompt e decide dinamicamente que características uma resposta ideal deveria ter. Ele gera automaticamente critérios como: “Usa linguagem simples, sem jargão médico?”, “Captura o diagnóstico corretamente?” e “O tom é empático?”. Em seguida, o juiz avalia a resposta do modelo em relação exatamente a esses critérios relevantes, em vez de aplicar regras genéricas.

Exemplo Prático de Avaliação

Considere a pergunta: “Os dinossauros realmente existiram?” Duas respostas muito diferentes poderiam ser avaliadas:

Uma resposta oferece detalhes extensos com evidências (fósseis, pegadas, ninhos) e explica a distinção entre dinossauros extintos e aves como descendentes vivos. A outra fornece uma resposta mais concisa, cobrindo os pontos principais sem a mesma profundidade.

O juiz baseado em rubrica analisa o contexto do prompt e gera critérios dinâmicos: precisão factual, clareza da explicação e estrutura apresentação. Ele então compara ambas as respostas contra esses critérios específicos, fornecendo uma justificativa detalhada de por que uma resposta é preferível à outra — neste caso, destacando que a primeira resposta oferece mais evidência e melhor estrutura organizacional.

Aplicações Empresariais do Juiz Baseado em Rubrica

A avaliação dinâmica baseada em rubrica resolve desafios críticos em diversos cenários:

Desenvolvimento de modelos e seleção de checkpoints: Equipes de desenvolvimento integram a avaliação do juiz Nova em pipelines de treinamento para avaliar automaticamente checkpoints. Pontuações por critério revelam quais capacidades melhoraram ou regrediram entre iterações, permitindo decisões informadas sobre ajustes de hiperparâmetros e curadoria de dados.

Controle de qualidade de dados de treinamento: Equipes usam o juiz para filtrar conjuntos de dados de ajuste fino supervisionado, gerando pontuações baseadas em critérios de relevância e identificando exemplos de baixa qualidade. Para conjuntos de dados de preferência, as margens calculadas entre pares de respostas possibilitam estratégias de aprendizado curricular que filtram exemplos unilaterais demais.

Análise profunda automatizada e identificação de causa raiz: Organizações que implementam IA generativa em escala podem usar a avaliação do juiz para análise sistemática de milhares de saídas de modelo sem revisão manual. Quando qualidade problemas aparecem, desenvolvedores examinam quais critérios específicos impulsionam as decisões de preferência, identificando fraquezas sistemáticas que informam melhorias direcionadas.

Como Funciona a Geração Dinâmica de Rubrica

O juiz baseado em rubrica da Amazon Nova recebe como entrada um trio: prompt, resposta_1 e resposta_2. Ele compara a qualidade das duas respostas e gera um rótulo de preferência, acompanhado de uma justificativa.

Uma rubrica é um conjunto de critérios ponderados usados para avaliar as duas respostas. Cada critério possui um nome curto, descrição e peso. O treinamento do juiz o capacita a gerar critérios cujos pesos somam 1. A saída estruturada em YAML inclui os critérios gerados, pontuações por critério em escala de 1 a 5, e justificativas detalhadas. O resultado final inclui um de quatro rótulos de preferência: [[A>B]], [[B>A]], [[A=B]] ou [[A=B (ambas ruins)]].

Cada pontuação de critério vem acompanhada de justificativa fundamentada em características observáveis das respostas, permitindo análise aprofundada e depuração do comportamento do modelo.

Melhorias em Relação à Versão Anterior

O juiz baseado em rubrica difere das versões anteriores em como apresenta resultados e quais informações fornece. A versão anterior retornava apenas rótulos de preferência simples. A versão baseada em rubrica gera saída estruturada em YAML contendo:

Uma rubrica específica do prompt com critérios e pesos de importância
Descrições em linguagem natural para cada critério
Pontuação em escala Likert (1–5) ou decisão binária para cada critério
Justificativa para cada pontuação de critério
Julgamento geral de preferência

Esse formato de saída mais detalhado facilita casos de uso nuançados. Critérios específicos permitem comparações direcionadas — por exemplo, uma resposta sucinta pode ser mais apropriada para um caso de uso, enquanto uma resposta abrangente é necessária para outro. Justificativas e pontuações explícitas de critérios permitem aos usuários descartar critérios inadequados e recalcular preferências sem consultar o juiz novamente.

Métricas de Avaliação Explicadas

O processo de avaliação do juiz utiliza várias métricas importantes para comparação de qualidade:

Concordância direta: Mede concordância com preferência humana em uma ordem específica de resposta.

Concordância reconciliada: Porque a consistência posicional é uma propriedade importante de um juiz LLM confiável, os checkpoints são avaliados obtendo julgamentos em ambas as ordens possíveis de apresentação. O juiz recebe crédito apenas se concordar em ambas as direções e corresponder à preferência humana. Por definição, este número sempre será mais baixo que a concordância direta, mas fornece um proxy mais preciso do desempenho real.

Pontuações ponderadas: Novas métricas que fornecem visão sobre a confiança do julgamento. Uma grande diferença entre pontuações ponderadas indica forte preferência por uma resposta. Essas pontuações são calculadas normalizando pontuações de critério para 0–1, multiplicando pelo peso do critério e somando para gerar pontuações finais. A margem de pontuação mostra a diferença entre pontuações ponderadas.

Metodologia de Treinamento do Juiz

O juiz baseado em rubrica da Amazon Nova foi treinado com um pacote de recompensa multi-aspecto otimizando para várias características desejáveis:

Precisão de preferência — recompensado quando produz decisões alinhadas com preferências humanas de ouro
Consistência posicional — decisões resilientes a inconsistências de posição de resposta candidata
Qualidade de justificativa — as justificativas devem alinhar com rubricas geradas, pontuações e julgamento final
Calibração de pontuação — pontuações ponderadas calibradas com precisão de decisão (julgamentos de alta confiança devem ser corretos mais frequentemente)

O processo começou com dados de preferência anotados por humanos, empregando filtragem customizada de dados e geração de dados sintéticos para obter justificativas de preferência alinhadas com rubrica. O pipeline customizado treinou o juiz a gerar critérios apropriados com granularidade precisa para tomada de decisão consistente e robusta.

Desempenho em Benchmarks

Testes em conjuntos de dados de avaliação padrão mostram melhorias significativas, particularmente em tarefas exigindo julgamento nuançado:

PPE: de 0.61 para 0.64
RMBench: de 0.66 para 0.88
RewardBench: de 0.88 para 0.90
JudgeBench: de 0.51 para 0.76
CodeUltraFeedback: de 0.69 para 0.72
MMEval: de 0.80 para 0.84

As melhoria maiores em JudgeBench (49% de aumento) e RMBench refletem melhor tratamento de cenários de avaliação complexos.

Calibração de Decisões

Durante treinamento e pós-processamento, a capacidade do juiz de tomar decisões bem calibradas é avaliada. O objetivo é alinhar confiança com precisão: o juiz LLM deveria ser mais preciso ao tomar decisões de alta confiança e permitido ser menos preciso com baixa confiança. Essa metodologia resulta em tomada de decisão consistente em conjuntos de dados dentro e fora da distribuição.

Também são avaliadas as distribuições de pontuações geradas para diferentes critérios, buscando uma distribuição aproximadamente normal sobre pontuações de escala Likert no conjunto de avaliação. Esse processo de calibração duplo ajuda a identificar melhores checkpoints do juiz.

Implementação Prática: Avaliando Modelos no SageMaker AI

A solução apresenta um fluxo completo: começar com um conjunto de dados de teste, gerar respostas de modelos candidatos, e usar o juiz baseado em rubrica para comparação automática.

Neste exemplo, questões foram amostradas do Stanford Question Answering Dataset (SQuAD), respostas foram geradas de dois modelos Qwen (1.5B e 7B), e os resultados foram salvos em um arquivo JSONL. O arquivo foi enviado para um bucket Amazon S3, e um job de treinamento PyTorch foi lançado para executar a avaliação do juiz usando SageMaker AI com instâncias GPU.

O resultado inclui rubricas geradas dinamicamente, pontuações por critério, justificativas comparativas, contagens de preferência e medidas de confiança — tudo salvo em S3 para análise posterior.

Casos de Uso Avançados

Avaliação de Sistemas RAG

Em Retrieval Augmented Generation (Geração Aumentada por Recuperação), o principal modo de falha é alucinação. Juízes de preferência tradicionais confundem “a resposta é boa?” com “é fluida?”, “bem formatada?”, “a lógica interna é sólida?”. Uma resposta fluida mas factualmente incorreta frequentemente parece mais credível que uma desajeitada mas precisa.

Uma avaliação focada em factualidade ajuda a selecionar modelos de resumo porque resultados de recuperação não têm alucinações. O juiz baseado em rubrica permite entender se a preferência baseia-se em critérios como fluência e formatação, ou se é baseada em critérios relevantes como fidedignidade, relevância de contexto. Usuários podem descartar pontuações de critérios irrelevantes e reavaliar julgamentos com base em um subconjunto de critérios que importam para sua aplicação.

Crítica Criativa

Em outro extremo, há casos onde criatividade e originalidade são desejáveis sobre fidelidade aos fatos reais ou contexto anterior. Um caso de uso envolvendo geração de histórias curtas ou scripts que sejam originais requer que gerações sejam suficientemente diferentes dos exemplos fornecidos, criativas, originais e sem emprestar diretamente de dados de treinamento existentes.

Usuários finais podem focar em critérios como originalidade, coerência e engajamento para otimizar julgamentos de preferência adequados para esse caso de uso. Justificativas explícitas para pontuações de critérios fornecem visão sobre que tipo específico de originalidade e criatividade é desejável.

Fonte

Evaluate generative AI models with an Amazon Nova rubric-based LLM judge on Amazon SageMaker AI (Part 2) (https://aws.amazon.com/blogs/machine-learning/evaluate-generative-ai-models-with-an-amazon-nova-rubric-based-llm-judge-on-amazon-sagemaker-ai-part-2/)