ImmigrationQA: Un Dataset per il Diritto dell'Immigrazione negli Stati Uniti
Esiste un nuovo dataset chiamato ImmigrationQA, creato da ricercatori per affrontare domande relative all'immigrazione. Include 17.058 coppie domanda-risposta provenienti da 13 aree diverse. Hanno raccolto informazioni da 11 fonti, come il Manuale delle Politiche dell'USCIS e l'8 CFR, ottenendo 10.056 documenti verificati e 18.308 frammenti di testo. Hanno utilizzato Claude Sonnet 4.6 per generare le coppie QA, ma ne hanno scartate 22 perché non corrispondevano abbastanza bene alla fonte. Successivamente, hanno messo a punto un modello Llama 3.2 3B Instruct con questi dati, testandone l'accuratezza su un insieme separato di 993 coppie utilizzando un sistema di punteggio su 101. Il diritto dell'immigrazione statunitense è molto complesso e cambia spesso, rendendo difficile per le persone senza assistenza legale.
Fatti principali
- Il dataset ImmigrationQA contiene 17.058 coppie QA in 13 sottodomini dell'immigrazione.
- Il corpus proviene da 11 fonti, tra cui il Manuale delle Politiche dell'USCIS, l'8 CFR e le decisioni precedenti del BIA.
- 10.056 documenti canonici validati e 18.308 frammenti di testo.
- Coppie QA generate utilizzando Claude Sonnet 4.6 con cinque prompt specifici per modalità.
- 22 coppie rifiutate per insufficiente sovrapposizione con la fonte.
- Modello Llama 3.2 3B Instruct messo a punto con LoRA.
- Valutato su 993 coppie tenute da parte con punteggio LLM-as-judge.
- Il diritto dell'immigrazione statunitense è complesso e ad alto rischio per i richiedenti non rappresentati.
Entità
Istituzioni
- USCIS
- BIA
Luoghi
- United States