ARTFEED — Contemporary Art Intelligence

LongTraceRL: Apprendimento del Ragionamento a Lungo Contesto dalle Traiettorie di Agenti di Ricerca con Ricompense Basate su Rubriche

other · 2026-06-01

Un nuovo metodo di apprendimento per rinforzo, LongTraceRL, affronta il ragionamento a lungo contesto nei modelli linguistici di grandi dimensioni utilizzando le traiettorie di agenti di ricerca per creare distrattori a livelli e ricompense basate su rubriche. L'approccio genera domande multi-hop tramite passeggiate casuali su grafi di conoscenza e sfrutta le traiettorie degli agenti di ricerca per costruire distrattori ad alta confondibilità da documenti letti ma non citati, e distrattori a bassa confondibilità da risultati di ricerca non aperti. Ciò produce contesti di addestramento più impegnativi rispetto al campionamento casuale o alla ricerca one-shot. La ricompensa basata su rubriche fornisce una supervisione intermedia per i passaggi di ragionamento, superando i limiti delle ricompense sparse basate solo sui risultati. L'articolo è disponibile su arXiv con ID 2605.31584.

Fatti principali

  • LongTraceRL è un metodo di apprendimento per rinforzo per il ragionamento a lungo contesto.
  • Utilizza le traiettorie di agenti di ricerca per costruire distrattori a livelli.
  • I distrattori ad alta confondibilità provengono da documenti letti ma non citati.
  • I distrattori a bassa confondibilità provengono da risultati di ricerca non aperti.
  • Le domande multi-hop sono generate tramite passeggiate casuali su grafi di conoscenza.
  • Le ricompense basate su rubriche supervisionano i passaggi di ragionamento intermedi.
  • Il metodo affronta i limiti di RLVR con distrattori a bassa confondibilità e ricompense sparse.
  • L'articolo è disponibile su arXiv con ID 2605.31584.

Entità

Istituzioni

  • arXiv

Fonti