LightReasoner: Modelli Piccoli Insegnano il Ragionamento a Modelli Grandi

ai-technology · 2026-05-23

I ricercatori propongono LightReasoner, un framework in cui modelli linguistici più piccoli (SLM) insegnano il ragionamento a modelli linguistici più grandi (LLM) identificando momenti di ragionamento di alto valore. Il metodo sfrutta la divergenza comportamentale tra un LLM esperto più forte e un SLM amatoriale più debole. Opera in due fasi: campionamento dei momenti critici di ragionamento tramite contrasto esperto-amatore per costruire esempi di supervisione, e fine-tuning per allineare l'LLM. Questo approccio riduce la dipendenza da grandi dataset curati e dall'ottimizzazione uniforme dei token, affrontando il problema del supervised fine-tuning dispendioso in termini di risorse. Il lavoro è pubblicato su arXiv con ID 2510.07962.

Fatti principali

LightReasoner sfrutta la divergenza comportamentale tra un modello esperto più forte (LLM) e un modello amatoriale più debole (SLM).
Il framework opera in due fasi: campionamento dei momenti critici di ragionamento e fine-tuning.
Utilizza il contrasto esperto-amatore per individuare i momenti di ragionamento di alto valore.
L'approccio riduce il supervised fine-tuning dispendioso in termini di risorse.
L'articolo è disponibile su arXiv con ID 2510.07962.
Il metodo esplora se modelli più piccoli possono insegnare il ragionamento a modelli più grandi.
Il supervised fine-tuning tradizionalmente si basa su grandi dataset curati e dimostrazioni campionate per rifiuto.
Solo una frazione dei token in SFT ha un valore di apprendimento significativo.

LightReasoner: Modelli Piccoli Insegnano il Ragionamento a Modelli Grandi

Fatti principali

Entità

Istituzioni

Fonti