LP-Eval: Una Rubrica e un Dataset per la Generazione di Proposizioni Giuridiche dalle Decisioni della Corte di Giustizia dell'UE

ai-technology · 2026-05-20

Uno studio recente presenta LP-Eval, un framework e un dataset mirati a valutare la qualità delle proposizioni giuridiche prodotte da modelli linguistici di grandi dimensioni (LLM) basate su sentenze della Corte di Giustizia dell'Unione Europea. Sviluppato in collaborazione con professionisti legali, il framework scompone la qualità delle proposizioni in validità formale e aspetti sostanziali. Il dataset include annotazioni di due esperti per 100 proposizioni generate da LLM. I risultati rivelano che gli LLM generano principalmente proposizioni ben strutturate e di alta qualità, mostrando una qualità migliore nei casi consolidati rispetto a quelli più recenti. Le valutazioni degli LLM guidate dalla rubrica sono più coerenti con i giudizi degli esperti rispetto a quelle effettuate direttamente.

Fatti principali

LP-Eval è una rubrica di valutazione in tre fasi per la generazione di proposizioni giuridiche.
La rubrica è stata co-progettata con esperti legali.
Scompone la qualità in dimensioni di validità formale e sostanziale.
Viene rilasciato un dataset di annotazioni di due esperti per 100 proposizioni generate da LLM.
Gli LLM generano prevalentemente proposizioni ben formate e di alta qualità.
Proposizioni di qualità superiore provengono da casi consolidati piuttosto che da quelli recenti.
I giudizi degli LLM guidati dalla rubrica si allineano più strettamente alle valutazioni degli esperti rispetto alle valutazioni dirette.
La ricerca si concentra sulle decisioni della Corte di Giustizia dell'Unione Europea.

Entità

Istituzioni

Court of Justice of the European Union

Luoghi

European Union

Fonti

arXiv cs.AI — 2026-05-20