GRPO migliora la verifica dei fatti multi-hop tramite modelli causali
Un nuovo framework stabilisce una base per la verifica dei fatti multi-hop basata su modelli causali strutturali (SCM), concettualizzando la verifica come una forma di inferenza causale costruttiva. I ricercatori hanno scoperto una relazione 'a U invertita' tra la lunghezza delle catene di ragionamento e l'accuratezza, indicando che catene eccessivamente complesse ostacolano le prestazioni. Per affrontare questo problema, propongono un approccio di apprendimento per rinforzo basato su regole che utilizza l'ottimizzazione delle politiche relative di gruppo (GRPO) per mantenere un equilibrio dinamico tra profondità strutturale e brevità. Questa ricerca mira a risolvere allucinazioni e sequenze logiche disconnesse nei modelli linguistici di grandi dimensioni (LLM) per una verifica efficace dei fatti multi-hop.
Fatti principali
- La verifica dei fatti multi-hop (MHFV) richiede un ragionamento complesso su prove disparate.
- Gli LLM soffrono spesso di allucinazioni e catene logiche frammentate nella MHFV.
- Metodi esistenti come Chain-of-Thought (CoT) mancano di una modellazione esplicita della dipendenza causale.
- Il framework fonda il ragionamento su un modello causale strutturale (SCM).
- Esiste una correlazione 'a U invertita' tra la lunghezza della catena di ragionamento e l'accuratezza.
- L'eccessiva complessità strutturale degrada le prestazioni.
- Viene proposta una strategia di apprendimento per rinforzo basata su regole che utilizza GRPO.
- GRPO ottimizza dinamicamente il compromesso tra profondità strutturale e concisione.
Entità
—