Studio esamina l'efficacia di RLVR per modelli linguistici di piccole dimensioni con dati e risorse computazionali limitati
Un nuovo studio empirico indaga le prestazioni del Reinforcement Learning with Verifiable Rewards (RLVR) quando applicato a modelli linguistici di piccole dimensioni (SLM) open-source in condizioni vincolate di dati e risorse computazionali. La ricerca affronta una lacuna nei lavori precedenti, che tipicamente presuppongono dati annotati di alta qualità abbondanti e una potenza computazionale sostanziale per il fine-tuning di modelli linguistici di grandi dimensioni (LLM). Questo lavoro presenta un'analisi completa su tre nuovi dataset progettati per problemi di conteggio numerico, ragionamento su grafi e compiti di ragionamento spaziale. Caratterizza come le prestazioni del modello si ridimensionano con variazioni nella dimensione, diversità e complessità del dataset. Un risultato chiave è che i dataset procedurali consentono una valutazione granulare e facilitano lo sviluppo di dataset di addestramento con proprietà controllabili. Lo studio dimostra che RLVR può essere utilizzato efficacemente in regimi a bassi dati, ampliando la sua applicabilità a contesti reali dove dati annotati e risorse computazionali accessibili sono spesso scarsi. La ricerca è documentata nel preprint arXiv:2604.18381v1, annunciato come nuovo. L'approccio contrasta con esplorazioni precedenti che si concentravano sul ridimensionamento sia dei dati che delle risorse computazionali per migliorare le capacità di ragionamento del modello attraverso RLVR.
Fatti principali
- Lo studio si concentra sul Reinforcement Learning with Verifiable Rewards (RLVR) per modelli linguistici di piccole dimensioni (SLM).
- Esamina le prestazioni in regimi a bassi dati e basse risorse computazionali.
- Tre nuovi dataset coprono conteggio numerico, ragionamento su grafi e ragionamento spaziale.
- La ricerca caratterizza il ridimensionamento delle prestazioni del modello con dimensione, diversità e complessità del dataset.
- I dataset procedurali consentono una valutazione granulare e lo sviluppo di dataset di addestramento con proprietà controllabili.
- Il lavoro affronta le limitazioni degli studi precedenti su RLVR che presupponevano dati e risorse computazionali abbondanti.
- I risultati mirano ad aumentare l'applicabilità di RLVR in contesti reali con risorse scarse.
- La ricerca è documentata nel preprint arXiv:2604.18381v1, annunciato come nuovo.
Entità
—