Il dataset LEGIT valuta le tracce di ragionamento giuridico degli LLM
Un team di ricercatori ha lanciato LEGIT (LEGal Issue Trees), un ampio dataset composto da 24.000 istanze di ragionamento giuridico di livello esperto, volto a valutare la qualità delle tracce di ragionamento prodotte dagli LLM. Questo dataset trasforma le sentenze dei tribunali in alberi strutturati che delineano le argomentazioni delle parti opposte e le conclusioni raggiunte dalla corte, fungendo da criteri per valutare sia la copertura che l'accuratezza delle questioni. L'affidabilità di questi criteri è stata confermata tramite annotazioni di esperti umani. I risultati hanno rivelato che le capacità di ragionamento giuridico degli LLM sono notevolmente influenzate dalla copertura e dall'accuratezza delle questioni, con la generazione aumentata da recupero (RAG) e l'apprendimento per rinforzo che utilizzano rubriche che offrono ulteriori miglioramenti.
Fatti principali
- Il dataset LEGIT contiene 24.000 istanze
- Il dataset si concentra sul ragionamento giuridico di livello esperto
- Le sentenze dei tribunali vengono convertite in alberi gerarchici
- Gli alberi includono le argomentazioni delle parti opposte e le conclusioni della corte
- Le rubriche valutano la copertura e la correttezza delle questioni
- Annotazioni di esperti umani hanno confermato l'affidabilità delle rubriche
- Il ragionamento degli LLM è influenzato dalla copertura e dalla correttezza delle questioni
- RAG e RL con rubriche offrono benefici complementari
Entità
—