Dati Auto-Generati Potenziano il RL nei Modelli Linguistici

ai-technology · 2026-05-12

Un nuovo articolo su arXiv (2605.08472) propone l'uso di dati auto-generati diversificati durante l'addestramento intermedio per migliorare l'apprendimento per rinforzo (RL) nei grandi modelli linguistici (LLM). Il metodo, guidato dal framework di risoluzione dei problemi di George Polya, genera molteplici varianti di risposte corrette per ogni domanda di addestramento prima del fine-tuning. Gli autori forniscono un'analisi teorica che mostra come gli aggiornamenti del policy-gradient incentivino la combinazione di più approcci di ragionamento. I risultati empirici dimostrano che questo approccio bootstrap alla generazione di dati migliora l'efficacia dell'RL esponendo i modelli a una gamma più ampia di strategie di ragionamento durante l'addestramento.

Fatti principali

Articolo pubblicato su arXiv con ID 2605.08472
Si concentra sul miglioramento dell'RL nei LLM utilizzando dati auto-generati
Utilizza gli approcci di risoluzione dei problemi di George Polya
Genera molteplici varianti di risposte corrette per ogni domanda
Fase di addestramento intermedio prima dell'addestramento RL
Analisi teorica degli aggiornamenti del policy-gradient
Risultati empirici mostrano un'efficacia migliorata dell'RL
Affronta la limitazione degli approcci di ragionamento limitati nei dati di addestramento

Dati Auto-Generati Potenziano il RL nei Modelli Linguistici

Fatti principali

Entità

Istituzioni

Fonti