DR Tulu-8B: IA Open-Source per la Ricerca di Lungo Respiro tramite Apprendimento per Rinforzo con Rubriche in Evoluzione
I ricercatori hanno introdotto l'Apprendimento per Rinforzo con Rubriche in Evoluzione (RLER), un metodo di addestramento innovativo per agenti di ricerca approfondita, e sviluppato DR Tulu-8B, il primo modello completamente aperto addestrato per la ricerca aperta e di lungo respiro. A differenza dei modelli aperti precedenti che si basano su compiti di QA a breve termine con ricompense verificabili, RLER costruisce e mantiene rubriche che co-evolvono con il modello politico durante l'addestramento, incorporando informazioni appena esplorate dalla ricerca e confrontando le risposte del modello per un migliore fact-checking. DR Tulu-8B supera sostanzialmente i modelli di ricerca approfondita aperti esistenti in quattro benchmark di lungo respiro nei domini scientifico, sanitario e generale. Il lavoro è dettagliato in un articolo su arXiv (2511.19399).
Fatti principali
- RLER sta per Apprendimento per Rinforzo con Rubriche in Evoluzione.
- DR Tulu-8B è il primo modello completamente aperto per la ricerca approfondita aperta e di lungo respiro.
- Il modello supera i modelli di ricerca approfondita aperti esistenti su quattro benchmark.
- I benchmark coprono i domini scientifico, sanitario e generale.
- RLER utilizza rubriche che co-evolvono con il modello politico durante l'addestramento.
- Le rubriche incorporano informazioni dalla ricerca e dal confronto delle risposte del modello.
- L'articolo è disponibile su arXiv con ID 2511.19399.
- La ricerca affronta le limitazioni dell'addestramento su compiti di QA a breve termine.
Entità
Istituzioni
- arXiv