Il dataset LEGIT valuta le tracce di ragionamento giuridico degli LLM

ai-technology · 2026-05-04

Un team di ricercatori ha lanciato LEGIT (LEGal Issue Trees), un ampio dataset composto da 24.000 istanze di ragionamento giuridico di livello esperto, volto a valutare la qualità delle tracce di ragionamento prodotte dagli LLM. Questo dataset trasforma le sentenze dei tribunali in alberi strutturati che delineano le argomentazioni delle parti opposte e le conclusioni raggiunte dalla corte, fungendo da criteri per valutare sia la copertura che l'accuratezza delle questioni. L'affidabilità di questi criteri è stata confermata tramite annotazioni di esperti umani. I risultati hanno rivelato che le capacità di ragionamento giuridico degli LLM sono notevolmente influenzate dalla copertura e dall'accuratezza delle questioni, con la generazione aumentata da recupero (RAG) e l'apprendimento per rinforzo che utilizzano rubriche che offrono ulteriori miglioramenti.

Fatti principali

Il dataset LEGIT contiene 24.000 istanze
Il dataset si concentra sul ragionamento giuridico di livello esperto
Le sentenze dei tribunali vengono convertite in alberi gerarchici
Gli alberi includono le argomentazioni delle parti opposte e le conclusioni della corte
Le rubriche valutano la copertura e la correttezza delle questioni
Annotazioni di esperti umani hanno confermato l'affidabilità delle rubriche
Il ragionamento degli LLM è influenzato dalla copertura e dalla correttezza delle questioni
RAG e RL con rubriche offrono benefici complementari

Entità

—

Fonti

arXiv cs.AI — 2026-05-04