ARTFEED — Contemporary Art Intelligence

ImmigrationQA: Un Dataset per il Diritto dell'Immigrazione negli Stati Uniti

ai-technology · 2026-06-01

Esiste un nuovo dataset chiamato ImmigrationQA, creato da ricercatori per affrontare domande relative all'immigrazione. Include 17.058 coppie domanda-risposta provenienti da 13 aree diverse. Hanno raccolto informazioni da 11 fonti, come il Manuale delle Politiche dell'USCIS e l'8 CFR, ottenendo 10.056 documenti verificati e 18.308 frammenti di testo. Hanno utilizzato Claude Sonnet 4.6 per generare le coppie QA, ma ne hanno scartate 22 perché non corrispondevano abbastanza bene alla fonte. Successivamente, hanno messo a punto un modello Llama 3.2 3B Instruct con questi dati, testandone l'accuratezza su un insieme separato di 993 coppie utilizzando un sistema di punteggio su 101. Il diritto dell'immigrazione statunitense è molto complesso e cambia spesso, rendendo difficile per le persone senza assistenza legale.

Fatti principali

  • Il dataset ImmigrationQA contiene 17.058 coppie QA in 13 sottodomini dell'immigrazione.
  • Il corpus proviene da 11 fonti, tra cui il Manuale delle Politiche dell'USCIS, l'8 CFR e le decisioni precedenti del BIA.
  • 10.056 documenti canonici validati e 18.308 frammenti di testo.
  • Coppie QA generate utilizzando Claude Sonnet 4.6 con cinque prompt specifici per modalità.
  • 22 coppie rifiutate per insufficiente sovrapposizione con la fonte.
  • Modello Llama 3.2 3B Instruct messo a punto con LoRA.
  • Valutato su 993 coppie tenute da parte con punteggio LLM-as-judge.
  • Il diritto dell'immigrazione statunitense è complesso e ad alto rischio per i richiedenti non rappresentati.

Entità

Istituzioni

  • USCIS
  • BIA

Luoghi

  • United States

Fonti