Curriculum implicito nell'apprendimento per rinforzo con ricompense verificabili
Una nuova teoria spiega come l'apprendimento per rinforzo con ricompense verificabili (RLVR) consenta ai transformer di risolvere compiti di ragionamento compositivo. La teoria rivela che l'addestramento a difficoltà mista crea un curriculum implicito: i problemi più facili diventano apprendibili per primi, plasmando il confine per quelli più difficili. Questa progressione di apprendimento dal facile al difficile emerge senza alcuna pianificazione esplicita. L'efficacia dipende dalla morbidezza dello spettro di difficoltà. Quando è morbido, si verifica un regime di staffetta in cui i segnali di gradiente sui problemi più facili rendono trattabili quelli leggermente più difficili. La ricerca è pubblicata su arXiv (2602.14872v2).
Fatti principali
- 1. RLVR ha guidato progressi rivoluzionari nei modelli di ragionamento su larga scala.
- 2. La teoria spiega come le ricompense basate sul risultato finale superino la barriera del lungo orizzonte.
- 3. L'addestramento a difficoltà mista segue un curriculum implicito.
- 4. I problemi più facili diventano apprendibili per primi durante l'ottimizzazione.
- 5. L'efficacia del curriculum è governata dalla morbidezza dello spettro di difficoltà.
- 6. Uno spettro morbido porta a un regime di staffetta ben comportato.
- 7. Segnali di gradiente persistenti sui problemi più facili rendono trattabili quelli più difficili.
- 8. L'articolo è disponibile su arXiv con ID 2602.14872v2.
Entità
Istituzioni
- arXiv