ViLegalNLI: Primo Dataset NLI Giuridico Vietnamita su Larga Scala

other · 2026-05-04

ViLegalNLI è stato lanciato come il primo dataset vietnamita su larga scala per il Natural Language Inference (NLI) specificamente progettato per il settore giuridico. Questo dataset include 42.012 coppie di premesse e ipotesi derivate da documenti legali ufficiali, ciascuna annotata con etichette di inferenza binarie (Entailment e Non-entailment). Coprendo vari settori legali, rappresenta scenari realistici di ragionamento giuridico che incorporano logica strutturata, clausole condizionali e terminologia specializzata. È stato creato un framework semi-automatizzato per la generazione dei dati, utilizzando modelli linguistici di grandi dimensioni per la creazione precisa di ipotesi e controlli di qualità approfonditi. Per migliorare l'affidabilità delle annotazioni e mantenere la coerenza giuridica, sono state implementate tecniche di mitigazione degli artefatti e validazione incrociata tra modelli. Il dataset comprende una gamma di stili di ragionamento, come la parafrasi e l'inferenza logica.

Fatti principali

ViLegalNLI è il primo dataset NLI vietnamita su larga scala per il dominio giuridico.
Il dataset contiene 42.012 coppie premessa-ipotesi.
Le coppie sono derivate da documenti normativi ufficiali.
Annotate con etichette binarie: Entailment e Non-entailment.
Copre molteplici domini giuridici.
Riflette il ragionamento giuridico realistico con logica strutturata e clausole condizionali.
Il framework di generazione dati semi-automatico utilizza modelli linguistici di grandi dimensioni.
Include mitigazione degli artefatti e validazione incrociata tra modelli per l'affidabilità.

Entità

—

Fonti

arXiv cs.AI — 2026-05-04