DeepSciVerify: Verifica di Affermazioni e Citazioni Guidata da LLM con Escalation Selettiva delle Prove
Un team di ricercatori ha introdotto DeepSciVerify, un sistema a due fasi progettato per validare l'allineamento tra affermazioni scientifiche e citazioni in report generati da modelli linguistici di grandi dimensioni (LLM). Inizialmente, il sistema valuta le affermazioni rispetto agli abstract e successivamente scala i casi ambigui per il recupero di passaggi di testo completo. Ha raggiunto un punteggio di 86,7 Micro-F1 sul benchmark SCitance, superando le baseline basate solo su abstract di 4,5 punti e risolvendo con successo il 67% dei casi senza necessità di accesso al testo completo. Questo metodo migliora sia la precisione che l'efficienza sfruttando i comportamenti variabili degli LLM, alcuni più cauti e altri più assertivi in situazioni incerte. Questa ricerca affronta un problema prevalente in ambienti scientifici critici.
Fatti principali
- 1. DeepSciVerify è una pipeline a due fasi per la verifica di affermazioni e citazioni scientifiche.
- 2. Combina il ragionamento a livello di abstract con l'escalation selettiva a prove a livello di passaggio.
- 3. Il sistema prima verifica le affermazioni usando gli abstract e rinvia i casi incerti.
- 4. I passaggi di testo completo vengono recuperati e analizzati solo quando necessario.
- 5. Il design sfrutta comportamenti complementari tra gli LLM.
- 6. Sul benchmark SCitance, DeepSciVerify raggiunge 86,7 Micro-F1.
- 7. Supera le forti baseline basate solo su abstract di +4,5 punti.
- 8. Il 67% dei casi viene risolto senza recupero del testo completo.
Entità
—