L'Esposizione Adattiva dell'Insegnante Migliora l'Autodistillazione del Ragionamento nei LLM

other · 2026-05-13

Un nuovo articolo su arXiv (2605.11458) mette in discussione la pratica predefinita nell'autodistillazione on-policy per il ragionamento dei grandi modelli linguistici (LLM), dove un modello insegnante vede sempre l'intero ragionamento di riferimento. Gli autori identificano un 'disallineamento di esposizione dal lato insegnante': condizionare il ragionamento oltre le competenze attuali dello studente produce obiettivi troppo difficili da apprendere. Una scansione controllata a esposizione fissa mostra che l'esposizione completa non è sempre ottimale e che il disallineamento cresce man mano che l'insegnante vede un ragionamento più privilegiato. Propongono l'Esposizione Adattiva dell'Insegnante, trattando l'esposizione come una variabile apprendibile durante l'addestramento. Il metodo viene valutato su benchmark di ragionamento matematico, dimostrando prestazioni migliori dello studente. Il lavoro è stato sottomesso il 26 maggio 2025.

Fatti principali

Articolo su arXiv: 2605.11458
Sottomesso il 26 maggio 2025
Si concentra sull'autodistillazione on-policy per il ragionamento dei LLM
Identifica il disallineamento di esposizione dal lato insegnante
L'esposizione completa non è sempre la scelta migliore
Il disallineamento studente-insegnante cresce con un ragionamento più privilegiato
Propone l'Esposizione Adattiva dell'Insegnante come variabile di controllo apprendibile
Valutato su benchmark di ragionamento matematico

L'Esposizione Adattiva dell'Insegnante Migliora l'Autodistillazione del Ragionamento nei LLM

Fatti principali

Entità

Istituzioni

Fonti