L'ottimizzazione dei prompt potenzia LLM-as-a-Judge nel QA legale
Un nuovo studio su arXiv (2604.20726) indaga come la progettazione dei prompt e la selezione del giudice influenzino le valutazioni LLM-as-a-Judge nel question answering legale a testo libero. Utilizzando il benchmark LEXam, i ricercatori hanno applicato il metodo ProTeGi per ottimizzare i prompt delle attività con feedback di due giudici (Qwen3-32B e DeepSeek-V3) su quattro modelli di attività. L'ottimizzazione automatica ha superato costantemente le baseline centrate sull'uomo. Il feedback dei giudici indulgenti ha prodotto guadagni più elevati e più consistenti rispetto al feedback severo. I prompt ottimizzati con feedback indulgente si sono trasferiti meglio ai giudici severi rispetto al contrario. L'analisi mostra che i giudici indulgenti forniscono feedback permissivi, risultando in prompt con applicabilità più ampia.
Fatti principali
- Lo studio appare su arXiv con ID 2604.20726
- Utilizza il benchmark LEXam per il QA legale
- Metodo ProTeGi utilizzato per l'ottimizzazione dei prompt
- Due giudici: Qwen3-32B e DeepSeek-V3
- Quattro modelli di attività testati
- L'ottimizzazione automatica supera la progettazione centrata sull'uomo
- Il feedback dei giudici indulgenti produce guadagni più elevati
- Il trasferimento da indulgente a severo supera il contrario
Entità
Istituzioni
- arXiv