LongTraceRL: Apprendimento del Ragionamento a Lungo Contesto dalle Traiettorie di Agenti di Ricerca con Ricompense Basate su Rubriche

other · 2026-06-01

Un nuovo metodo di apprendimento per rinforzo, LongTraceRL, affronta il ragionamento a lungo contesto nei modelli linguistici di grandi dimensioni utilizzando le traiettorie di agenti di ricerca per creare distrattori a livelli e ricompense basate su rubriche. L'approccio genera domande multi-hop tramite passeggiate casuali su grafi di conoscenza e sfrutta le traiettorie degli agenti di ricerca per costruire distrattori ad alta confondibilità da documenti letti ma non citati, e distrattori a bassa confondibilità da risultati di ricerca non aperti. Ciò produce contesti di addestramento più impegnativi rispetto al campionamento casuale o alla ricerca one-shot. La ricompensa basata su rubriche fornisce una supervisione intermedia per i passaggi di ragionamento, superando i limiti delle ricompense sparse basate solo sui risultati. L'articolo è disponibile su arXiv con ID 2605.31584.

Fatti principali

LongTraceRL è un metodo di apprendimento per rinforzo per il ragionamento a lungo contesto.
Utilizza le traiettorie di agenti di ricerca per costruire distrattori a livelli.
I distrattori ad alta confondibilità provengono da documenti letti ma non citati.
I distrattori a bassa confondibilità provengono da risultati di ricerca non aperti.
Le domande multi-hop sono generate tramite passeggiate casuali su grafi di conoscenza.
Le ricompense basate su rubriche supervisionano i passaggi di ragionamento intermedi.
Il metodo affronta i limiti di RLVR con distrattori a bassa confondibilità e ricompense sparse.
L'articolo è disponibile su arXiv con ID 2605.31584.

LongTraceRL: Apprendimento del Ragionamento a Lungo Contesto dalle Traiettorie di Agenti di Ricerca con Ricompense Basate su Rubriche

Fatti principali

Entità

Istituzioni

Fonti