DecomposeRL: Verifica di Affermazioni Basata su RL con Ragionamento Tracciabile
DecomposeRL introduce un sistema innovativo per la verifica di affermazioni, unendo la precisione dei classificatori end-to-end con la trasparenza delle tecniche basate sulla scomposizione. Concettualizza la scomposizione delle affermazioni come una politica di apprendimento per rinforzo, utilizzando GRPO e un insieme eterogeneo di ricompense, che facilita l'apprendimento sia completamente supervisionato che semi-supervisionato da affermazioni senza etichette. Per mitigare gli elevati costi di addestramento associati a GRPO, DecomposeRL implementa un imbuto di cura dei dati che raffina 115.000 affermazioni di verifica in un insieme snello di 5.000 affermazioni. Una politica DecomposeRL-7B, addestrata con supervisione completa su circa 5.000 affermazioni curate, raggiunge punteggi di accuratezza bilanciata dell'86,3 in-domain e 69,8 out-of-domain su 11 benchmark nei domini biomedico, politico, scientifico e generale.
Fatti principali
- 1. DecomposeRL inquadra la scomposizione come una politica RL addestrata con GRPO
- 2. Utilizza un insieme eterogeneo di ricompense
- 3. Consente l'apprendimento semi-supervisionato da affermazioni non etichettate
- 4. L'imbuto di cura dei dati distilla 115.000 affermazioni in 5.000
- 5. DecomposeRL-7B raggiunge un'accuratezza bilanciata in-domain dell'86,3
- 6. Raggiunge un'accuratezza bilanciata out-of-domain del 69,8
- 7. Testato su 11 benchmark di verifica delle affermazioni
- 8. Copre affermazioni nei domini biomedico, politico, scientifico e generale
Entità
Istituzioni
- arXiv