La distillazione del ragionamento non riesce a trasmettere la struttura cognitiva nei LLM
Un recente studio pubblicato su arXiv indica che i modelli linguistici di grandi dimensioni (LLM) faticano a trasmettere il quadro cognitivo del ragionamento attraverso la distillazione del ragionamento. I ricercatori hanno esaminato l'ipotesi "Hán Dān Xué Bù" (Mimetismo Superficiale) su 14 modelli. Hanno scoperto che i modelli insegnanti, addestrati tramite apprendimento per rinforzo, si allineano strettamente ai costi cognitivi umani (correlazione r=0,64). Al contrario, i modelli studenti distillati addestrati tramite Supervised Fine-Tuning (SFT) subiscono un "Collasso di Allineamento Funzionale" (r=0,34) e spesso ottengono risultati peggiori rispetto ai loro benchmark pre-distillazione, una situazione definita "Trasferimento Negativo". I risultati implicano che SFT crea un effetto "Cargo Cult", in cui gli studenti imitano gli aspetti superficiali del ragionamento senza cogliere la strategia di allocazione adattiva delle risorse dell'insegnante. Il documento completo è disponibile su arXiv:2601.05019.
Fatti principali
- Lo studio testa l'ipotesi Hán Dān Xué Bù su 14 modelli
- I modelli insegnanti mostrano allineamento con i costi cognitivi umani (r=0,64)
- Gli studenti distillati subiscono un Collasso di Allineamento Funzionale (r=0,34)
- Gli studenti distillati spesso ottengono risultati inferiori rispetto ai benchmark pre-distillazione
- SFT induce un effetto Cargo Cult nella distillazione del ragionamento
- Articolo pubblicato su arXiv con ID 2601.05019
- I modelli insegnanti sono addestrati tramite apprendimento per rinforzo
- I modelli studenti sono addestrati tramite Supervised Fine-Tuning (SFT)
Entità
Istituzioni
- arXiv