ARTFEED — Contemporary Art Intelligence

L'ottimizzazione dei prompt potenzia LLM-as-a-Judge nel QA legale

ai-technology · 2026-04-24

Un nuovo studio su arXiv (2604.20726) indaga come la progettazione dei prompt e la selezione del giudice influenzino le valutazioni LLM-as-a-Judge nel question answering legale a testo libero. Utilizzando il benchmark LEXam, i ricercatori hanno applicato il metodo ProTeGi per ottimizzare i prompt delle attività con feedback di due giudici (Qwen3-32B e DeepSeek-V3) su quattro modelli di attività. L'ottimizzazione automatica ha superato costantemente le baseline centrate sull'uomo. Il feedback dei giudici indulgenti ha prodotto guadagni più elevati e più consistenti rispetto al feedback severo. I prompt ottimizzati con feedback indulgente si sono trasferiti meglio ai giudici severi rispetto al contrario. L'analisi mostra che i giudici indulgenti forniscono feedback permissivi, risultando in prompt con applicabilità più ampia.

Fatti principali

  • Lo studio appare su arXiv con ID 2604.20726
  • Utilizza il benchmark LEXam per il QA legale
  • Metodo ProTeGi utilizzato per l'ottimizzazione dei prompt
  • Due giudici: Qwen3-32B e DeepSeek-V3
  • Quattro modelli di attività testati
  • L'ottimizzazione automatica supera la progettazione centrata sull'uomo
  • Il feedback dei giudici indulgenti produce guadagni più elevati
  • Il trasferimento da indulgente a severo supera il contrario

Entità

Istituzioni

  • arXiv

Fonti