ARTFEED — Contemporary Art Intelligence

Un Framework di Auto-Distillazione Recupera le Prestazioni nei Modelli Linguistici di Grande Dimensione

ai-technology · 2026-04-20

Un nuovo framework noto come Self-Distillation Fine-Tuning (SDFT) è stato sviluppato per affrontare il problema del declino delle prestazioni nei Modelli Linguistici di Grande Dimensione (LLM). Questo declino è frequentemente attribuito al dimenticanza catastrofica che sorge durante il Supervised Fine-Tuning (SFT), così come durante la quantizzazione e il pruning. Lo studio offre sia una base teorica che indicazioni pratiche per questo processo di recupero. Suggerisce che la capacità generativa di un LLM è intrinsecamente legata alla varietà ad alta dimensione formata dai suoi strati nascosti. I ricercatori utilizzano il Centered Kernel Alignment (CKA) per valutare l'allineamento delle traiettorie di attivazione tra modelli studente e insegnante, beneficiando della sua invarianza alle trasformazioni ortogonali. I risultati indicano un forte legame tra allineamento delle attivazioni e recupero delle prestazioni. Questa ricerca, che affronta sfide significative nel mantenere le prestazioni degli LLM tra vari metodi di ottimizzazione, è stata pubblicata su arXiv con identificatore 2604.15794v1.

Fatti principali

  • Il framework Self-Distillation Fine-Tuning (SDFT) recupera le prestazioni degli LLM
  • Affronta il degrado delle prestazioni dovuto alla dimenticanza catastrofica durante l'SFT
  • Affronta anche il degrado dovuto a quantizzazione e pruning
  • Fornisce una spiegazione teorica per il meccanismo di recupero
  • La capacità generativa degli LLM dipende dalla varietà ad alta dimensione degli strati nascosti
  • Utilizza il Centered Kernel Alignment (CKA) per misurare l'allineamento delle attivazioni
  • Il CKA ha invarianza alle trasformazioni ortogonali e al ridimensionamento
  • Pubblicato su arXiv con identificatore 2604.15794v1

Entità

Istituzioni

  • arXiv

Fonti