DecomposeRL: Verifica di Affermazioni Basata su RL con Ragionamento Tracciabile

ai-technology · 2026-05-28

DecomposeRL introduce un sistema innovativo per la verifica di affermazioni, unendo la precisione dei classificatori end-to-end con la trasparenza delle tecniche basate sulla scomposizione. Concettualizza la scomposizione delle affermazioni come una politica di apprendimento per rinforzo, utilizzando GRPO e un insieme eterogeneo di ricompense, che facilita l'apprendimento sia completamente supervisionato che semi-supervisionato da affermazioni senza etichette. Per mitigare gli elevati costi di addestramento associati a GRPO, DecomposeRL implementa un imbuto di cura dei dati che raffina 115.000 affermazioni di verifica in un insieme snello di 5.000 affermazioni. Una politica DecomposeRL-7B, addestrata con supervisione completa su circa 5.000 affermazioni curate, raggiunge punteggi di accuratezza bilanciata dell'86,3 in-domain e 69,8 out-of-domain su 11 benchmark nei domini biomedico, politico, scientifico e generale.

Fatti principali

1. DecomposeRL inquadra la scomposizione come una politica RL addestrata con GRPO
2. Utilizza un insieme eterogeneo di ricompense
3. Consente l'apprendimento semi-supervisionato da affermazioni non etichettate
4. L'imbuto di cura dei dati distilla 115.000 affermazioni in 5.000
5. DecomposeRL-7B raggiunge un'accuratezza bilanciata in-domain dell'86,3
6. Raggiunge un'accuratezza bilanciata out-of-domain del 69,8
7. Testato su 11 benchmark di verifica delle affermazioni
8. Copre affermazioni nei domini biomedico, politico, scientifico e generale

DecomposeRL: Verifica di Affermazioni Basata su RL con Ragionamento Tracciabile

Fatti principali

Entità

Istituzioni

Fonti