Dati Auto-Generati Potenziano il RL nei Modelli Linguistici
Un nuovo articolo su arXiv (2605.08472) propone l'uso di dati auto-generati diversificati durante l'addestramento intermedio per migliorare l'apprendimento per rinforzo (RL) nei grandi modelli linguistici (LLM). Il metodo, guidato dal framework di risoluzione dei problemi di George Polya, genera molteplici varianti di risposte corrette per ogni domanda di addestramento prima del fine-tuning. Gli autori forniscono un'analisi teorica che mostra come gli aggiornamenti del policy-gradient incentivino la combinazione di più approcci di ragionamento. I risultati empirici dimostrano che questo approccio bootstrap alla generazione di dati migliora l'efficacia dell'RL esponendo i modelli a una gamma più ampia di strategie di ragionamento durante l'addestramento.
Fatti principali
- Articolo pubblicato su arXiv con ID 2605.08472
- Si concentra sul miglioramento dell'RL nei LLM utilizzando dati auto-generati
- Utilizza gli approcci di risoluzione dei problemi di George Polya
- Genera molteplici varianti di risposte corrette per ogni domanda
- Fase di addestramento intermedio prima dell'addestramento RL
- Analisi teorica degli aggiornamenti del policy-gradient
- Risultati empirici mostrano un'efficacia migliorata dell'RL
- Affronta la limitazione degli approcci di ragionamento limitati nei dati di addestramento
Entità
Istituzioni
- arXiv