ARTFEED — Contemporary Art Intelligence

RTLC: il prompting ispirato a Feynman migliora l'accuratezza di LLM-as-judge su JudgeBench

ai-technology · 2026-05-14

Un nuovo paradigma di prompting chiamato RTLC (Research, Teach-to-Learn, Critique) migliora significativamente l'accuratezza di LLM-as-judge sul benchmark JudgeBench senza necessità di fine-tuning, recupero o strumenti esterni. Ispirato alla Tecnica di Apprendimento di Feynman, RTLC trasforma un singolo LLM black-box in un giudice ensemble-of-thought attraverso tre fasi: un'impalcatura pedagogica, molteplici verdetti indipendenti (N=10 a temperatura 0.4) e una fase di autocritica (temperatura 0). Su JudgeBench-GPT, l'accuratezza pairwise di Claude 3.7 Sonnet è passata dal 64,6% (prompt vanilla a colpo singolo) a livelli superiori. Il metodo affronta la debolezza persistente dei giudici LLM sugli item pairwise di correttezza oggettiva, dove anche modelli forti addestrati con istruzioni superano di poco il caso casuale. L'articolo è pubblicato su arXiv (2605.13695).

Fatti principali

  • RTLC sta per Research, Teach-to-Learn, Critique
  • Ispirato alla Tecnica di Apprendimento di Feynman
  • Non richiede fine-tuning, recupero o strumenti esterni
  • Utilizza N=10 verdetti candidati indipendenti a temperatura 0.4
  • Fase di autocritica a temperatura 0
  • Testato su JudgeBench-GPT con 350 item pairwise difficili
  • Accuratezza di Claude 3.7 Sonnet migliorata dal 64,6% di base
  • Pubblicato su arXiv con ID 2605.13695

Entità

Istituzioni

  • arXiv

Fonti