Benchmark Legali NLP Intertemporali Mostrano un Grave Degrado delle Prestazioni

other · 2026-05-26

Uno studio recente mette in discussione l'ipotesi di stazionarietà nel NLP legale esaminando modelli transformer su sentenze dei tribunali ucraini provenienti da tre distinti periodi geopolitici: pre-guerra (2008–2013), guerra ibrida (2014–2021) e invasione su larga scala (2022–2026). I ricercatori hanno messo a punto quattro encoder transformer—XLM-RoBERTa base e large, insieme ai loro adattamenti al dominio legale—su un periodo e li hanno valutati su tutti e tre, ottenendo una matrice di generalizzazione intertemporale 3×3. I risultati rivelano un significativo degrado in avanti, con modelli addestrati su dati pre-guerra che subiscono un calo fino a 27,2 punti percentuali nel macro-F1 quando utilizzati su sentenze dell'invasione su larga scala. Al contrario, il trasferimento all'indietro dall'invasione su larga scala al pre-guerra è notevolmente più forte, supportando l'idea che il linguaggio legale si costruisca su se stesso. Il miglioramento derivante dal pre-addestramento nel dominio legale è stato minimo rispetto ai modelli di dominio generale, evidenziando la necessità di consapevolezza temporale nei sistemi di IA legale.

Fatti principali

Lo studio testa l'ipotesi di stazionarietà nel NLP legale utilizzando decisioni dei tribunali ucraini.
Tre epoche temporali definite da sconvolgimenti geopolitici: pre-guerra (2008–2013), guerra ibrida (2014–2021), invasione su larga scala (2022–2026).
Quattro encoder transformer testati: XLM-RoBERTa base, XLM-RoBERTa large e le loro varianti per il dominio legale.
Modelli addestrati su un'epoca e valutati su tutte e tre (matrice intertemporale 3×3).
Degrado in avanti: i modelli addestrati nel pre-guerra perdono fino a 27,2 punti percentuali di macro-F1 sui dati dell'invasione su larga scala.
Il trasferimento all'indietro (invasione su larga scala a pre-guerra) è più robusto del trasferimento in avanti.
Il pre-addestramento nel dominio legale ha mostrato un beneficio limitato rispetto ai modelli di dominio generale.
I risultati suggeriscono che il linguaggio legale è additivo e non stazionario.

Benchmark Legali NLP Intertemporali Mostrano un Grave Degrado delle Prestazioni

Fatti principali

Entità

Luoghi

Fonti