Studio Rivela Leggi di Scala per l'Apprendimento per Rinforzo dei LLM nel Ragionamento Matematico
Uno studio empirico indaga sistematicamente il comportamento dei grandi modelli linguistici (LLM) dopo l'apprendimento per rinforzo, concentrandosi sul ragionamento matematico. Questa ricerca analizza le caratteristiche di scala della serie di modelli densi Qwen2.5, che spazia da 0,5B a 72B parametri. Quattro risultati significativi emergono dallo studio: i modelli più grandi mostrano una maggiore efficienza di apprendimento riguardo alle metriche di calcolo e dati, si osserva una forte relazione predittiva di legge di potenza tra perdita di test, calcolo e dati sia nei modelli base che in quelli ottimizzati per istruzioni, e sebbene i modelli più grandi siano più efficienti, le loro tendenze di efficienza di apprendimento analitico necessitano di ulteriori indagini. L'interazione tra dimensione del modello, quantità di dati e risorse computazionali è caratterizzata per influenzare le prestazioni. Questa ricerca colma una lacuna nella comprensione delle leggi di scala per i LLM durante l'apprendimento per rinforzo post-addestramento, che ha ricevuto meno attenzione rispetto al pre-addestramento. Il documento è catalogato come arXiv:2509.25300v4 e classificato come annuncio replace-cross.
Fatti principali
- Lo studio indaga i comportamenti di scala dei grandi modelli linguistici sotto apprendimento per rinforzo post-addestramento
- L'attenzione è specificamente focalizzata sulle applicazioni di ragionamento matematico
- La ricerca copre l'intera serie di modelli densi Qwen2.5 da 0,5B a 72B parametri
- I modelli più grandi mostrano costantemente una superiore efficienza di apprendimento sulle metriche di calcolo e dati
- È stata identificata una relazione predittiva di legge di potenza tra perdita di test, calcolo e dati
- La relazione di legge di potenza è robusta sia nei modelli base che in quelli ottimizzati per istruzioni
- Il documento è pubblicato come arXiv:2509.25300v4 con tipo di annuncio replace-cross
- Lo studio esamina le interazioni tra scala del modello, volume di dati e budget computazionale
Entità
—