ViLegalNLI: Primo Dataset NLI Giuridico Vietnamita su Larga Scala
ViLegalNLI è stato lanciato come il primo dataset vietnamita su larga scala per il Natural Language Inference (NLI) specificamente progettato per il settore giuridico. Questo dataset include 42.012 coppie di premesse e ipotesi derivate da documenti legali ufficiali, ciascuna annotata con etichette di inferenza binarie (Entailment e Non-entailment). Coprendo vari settori legali, rappresenta scenari realistici di ragionamento giuridico che incorporano logica strutturata, clausole condizionali e terminologia specializzata. È stato creato un framework semi-automatizzato per la generazione dei dati, utilizzando modelli linguistici di grandi dimensioni per la creazione precisa di ipotesi e controlli di qualità approfonditi. Per migliorare l'affidabilità delle annotazioni e mantenere la coerenza giuridica, sono state implementate tecniche di mitigazione degli artefatti e validazione incrociata tra modelli. Il dataset comprende una gamma di stili di ragionamento, come la parafrasi e l'inferenza logica.
Fatti principali
- ViLegalNLI è il primo dataset NLI vietnamita su larga scala per il dominio giuridico.
- Il dataset contiene 42.012 coppie premessa-ipotesi.
- Le coppie sono derivate da documenti normativi ufficiali.
- Annotate con etichette binarie: Entailment e Non-entailment.
- Copre molteplici domini giuridici.
- Riflette il ragionamento giuridico realistico con logica strutturata e clausole condizionali.
- Il framework di generazione dati semi-automatico utilizza modelli linguistici di grandi dimensioni.
- Include mitigazione degli artefatti e validazione incrociata tra modelli per l'affidabilità.
Entità
—