L'ottimizzazione dei prompt potenzia LLM-as-a-Judge nel QA legale

ai-technology · 2026-04-24

Un nuovo studio su arXiv (2604.20726) indaga come la progettazione dei prompt e la selezione del giudice influenzino le valutazioni LLM-as-a-Judge nel question answering legale a testo libero. Utilizzando il benchmark LEXam, i ricercatori hanno applicato il metodo ProTeGi per ottimizzare i prompt delle attività con feedback di due giudici (Qwen3-32B e DeepSeek-V3) su quattro modelli di attività. L'ottimizzazione automatica ha superato costantemente le baseline centrate sull'uomo. Il feedback dei giudici indulgenti ha prodotto guadagni più elevati e più consistenti rispetto al feedback severo. I prompt ottimizzati con feedback indulgente si sono trasferiti meglio ai giudici severi rispetto al contrario. L'analisi mostra che i giudici indulgenti forniscono feedback permissivi, risultando in prompt con applicabilità più ampia.

Fatti principali

Lo studio appare su arXiv con ID 2604.20726
Utilizza il benchmark LEXam per il QA legale
Metodo ProTeGi utilizzato per l'ottimizzazione dei prompt
Due giudici: Qwen3-32B e DeepSeek-V3
Quattro modelli di attività testati
L'ottimizzazione automatica supera la progettazione centrata sull'uomo
Il feedback dei giudici indulgenti produce guadagni più elevati
Il trasferimento da indulgente a severo supera il contrario

L'ottimizzazione dei prompt potenzia LLM-as-a-Judge nel QA legale

Fatti principali

Entità

Istituzioni

Fonti