DR Tulu-8B: IA Open-Source per la Ricerca di Lungo Respiro tramite Apprendimento per Rinforzo con Rubriche in Evoluzione

ai-technology · 2026-05-18

I ricercatori hanno introdotto l'Apprendimento per Rinforzo con Rubriche in Evoluzione (RLER), un metodo di addestramento innovativo per agenti di ricerca approfondita, e sviluppato DR Tulu-8B, il primo modello completamente aperto addestrato per la ricerca aperta e di lungo respiro. A differenza dei modelli aperti precedenti che si basano su compiti di QA a breve termine con ricompense verificabili, RLER costruisce e mantiene rubriche che co-evolvono con il modello politico durante l'addestramento, incorporando informazioni appena esplorate dalla ricerca e confrontando le risposte del modello per un migliore fact-checking. DR Tulu-8B supera sostanzialmente i modelli di ricerca approfondita aperti esistenti in quattro benchmark di lungo respiro nei domini scientifico, sanitario e generale. Il lavoro è dettagliato in un articolo su arXiv (2511.19399).

Fatti principali

RLER sta per Apprendimento per Rinforzo con Rubriche in Evoluzione.
DR Tulu-8B è il primo modello completamente aperto per la ricerca approfondita aperta e di lungo respiro.
Il modello supera i modelli di ricerca approfondita aperti esistenti su quattro benchmark.
I benchmark coprono i domini scientifico, sanitario e generale.
RLER utilizza rubriche che co-evolvono con il modello politico durante l'addestramento.
Le rubriche incorporano informazioni dalla ricerca e dal confronto delle risposte del modello.
L'articolo è disponibile su arXiv con ID 2511.19399.
La ricerca affronta le limitazioni dell'addestramento su compiti di QA a breve termine.

DR Tulu-8B: IA Open-Source per la Ricerca di Lungo Respiro tramite Apprendimento per Rinforzo con Rubriche in Evoluzione

Fatti principali

Entità

Istituzioni

Fonti