LongTraceRL: Apprendimento del Ragionamento a Lungo Contesto dalle Traiettorie di Agenti di Ricerca con Ricompense Basate su Rubriche
Un nuovo metodo di apprendimento per rinforzo, LongTraceRL, affronta il ragionamento a lungo contesto nei modelli linguistici di grandi dimensioni utilizzando le traiettorie di agenti di ricerca per creare distrattori a livelli e ricompense basate su rubriche. L'approccio genera domande multi-hop tramite passeggiate casuali su grafi di conoscenza e sfrutta le traiettorie degli agenti di ricerca per costruire distrattori ad alta confondibilità da documenti letti ma non citati, e distrattori a bassa confondibilità da risultati di ricerca non aperti. Ciò produce contesti di addestramento più impegnativi rispetto al campionamento casuale o alla ricerca one-shot. La ricompensa basata su rubriche fornisce una supervisione intermedia per i passaggi di ragionamento, superando i limiti delle ricompense sparse basate solo sui risultati. L'articolo è disponibile su arXiv con ID 2605.31584.
Fatti principali
- LongTraceRL è un metodo di apprendimento per rinforzo per il ragionamento a lungo contesto.
- Utilizza le traiettorie di agenti di ricerca per costruire distrattori a livelli.
- I distrattori ad alta confondibilità provengono da documenti letti ma non citati.
- I distrattori a bassa confondibilità provengono da risultati di ricerca non aperti.
- Le domande multi-hop sono generate tramite passeggiate casuali su grafi di conoscenza.
- Le ricompense basate su rubriche supervisionano i passaggi di ragionamento intermedi.
- Il metodo affronta i limiti di RLVR con distrattori a bassa confondibilità e ricompense sparse.
- L'articolo è disponibile su arXiv con ID 2605.31584.
Entità
Istituzioni
- arXiv