La selezione delle risposte incentrata sullo studente migliora l'addestramento dei LLM rispetto al miglior insegnante

ai-technology · 2026-05-27

Un nuovo framework chiamato Student-Centric Answer Sampling (SCAS) sfida la pratica comune di utilizzare il modello insegnante con le migliori prestazioni per generare dati di addestramento per LLM studenti. La ricerca, pubblicata su arXiv (2605.26872), dimostra che anche quando più insegnanti producono risposte corrette, la risposta dell'insegnante più forte non è sempre la migliore supervisione per un dato studente. SCAS seleziona tra le risposte verificate generate dagli insegnanti in base al costo di apprendimento stimato incentrato sullo studente, derivato da una scomposizione del gradiente a livello di token. Esperimenti su 30 modelli insegnante e 6 modelli base studente mostrano una migliore efficienza ed efficacia dell'addestramento.

Fatti principali

Il paper arXiv 2605.26872 introduce il framework SCAS
SCAS seleziona le risposte degli insegnanti in base al costo di apprendimento incentrato sullo studente
La pratica corrente utilizza l'insegnante con le migliori prestazioni per i dati di addestramento
La risposta dell'insegnante più forte non è sempre la migliore per lo studente
Il metodo utilizza la scomposizione del gradiente a livello di token
Testato su 30 modelli insegnante e 6 modelli base studente
SCAS fornisce un proxy efficiente forward-only per il costo di apprendimento
La ricerca sfida l'assunzione che le prestazioni del test dell'insegnante equivalgano alla qualità dell'insegnamento

La selezione delle risposte incentrata sullo studente migliora l'addestramento dei LLM rispetto al miglior insegnante

Fatti principali

Entità

Istituzioni

Fonti