LightReasoner: Modelli Piccoli Insegnano il Ragionamento a Modelli Grandi
I ricercatori propongono LightReasoner, un framework in cui modelli linguistici più piccoli (SLM) insegnano il ragionamento a modelli linguistici più grandi (LLM) identificando momenti di ragionamento di alto valore. Il metodo sfrutta la divergenza comportamentale tra un LLM esperto più forte e un SLM amatoriale più debole. Opera in due fasi: campionamento dei momenti critici di ragionamento tramite contrasto esperto-amatore per costruire esempi di supervisione, e fine-tuning per allineare l'LLM. Questo approccio riduce la dipendenza da grandi dataset curati e dall'ottimizzazione uniforme dei token, affrontando il problema del supervised fine-tuning dispendioso in termini di risorse. Il lavoro è pubblicato su arXiv con ID 2510.07962.
Fatti principali
- LightReasoner sfrutta la divergenza comportamentale tra un modello esperto più forte (LLM) e un modello amatoriale più debole (SLM).
- Il framework opera in due fasi: campionamento dei momenti critici di ragionamento e fine-tuning.
- Utilizza il contrasto esperto-amatore per individuare i momenti di ragionamento di alto valore.
- L'approccio riduce il supervised fine-tuning dispendioso in termini di risorse.
- L'articolo è disponibile su arXiv con ID 2510.07962.
- Il metodo esplora se modelli più piccoli possono insegnare il ragionamento a modelli più grandi.
- Il supervised fine-tuning tradizionalmente si basa su grandi dataset curati e dimostrazioni campionate per rifiuto.
- Solo una frazione dei token in SFT ha un valore di apprendimento significativo.
Entità
Istituzioni
- arXiv