L'Esposizione Adattiva dell'Insegnante Migliora l'Autodistillazione del Ragionamento nei LLM
Un nuovo articolo su arXiv (2605.11458) mette in discussione la pratica predefinita nell'autodistillazione on-policy per il ragionamento dei grandi modelli linguistici (LLM), dove un modello insegnante vede sempre l'intero ragionamento di riferimento. Gli autori identificano un 'disallineamento di esposizione dal lato insegnante': condizionare il ragionamento oltre le competenze attuali dello studente produce obiettivi troppo difficili da apprendere. Una scansione controllata a esposizione fissa mostra che l'esposizione completa non è sempre ottimale e che il disallineamento cresce man mano che l'insegnante vede un ragionamento più privilegiato. Propongono l'Esposizione Adattiva dell'Insegnante, trattando l'esposizione come una variabile apprendibile durante l'addestramento. Il metodo viene valutato su benchmark di ragionamento matematico, dimostrando prestazioni migliori dello studente. Il lavoro è stato sottomesso il 26 maggio 2025.
Fatti principali
- Articolo su arXiv: 2605.11458
- Sottomesso il 26 maggio 2025
- Si concentra sull'autodistillazione on-policy per il ragionamento dei LLM
- Identifica il disallineamento di esposizione dal lato insegnante
- L'esposizione completa non è sempre la scelta migliore
- Il disallineamento studente-insegnante cresce con un ragionamento più privilegiato
- Propone l'Esposizione Adattiva dell'Insegnante come variabile di controllo apprendibile
- Valutato su benchmark di ragionamento matematico
Entità
Istituzioni
- arXiv