Compressione del Ragionamento tramite Distillazione a Politica Mista

ai-technology · 2026-05-12

Un nuovo metodo chiamato Distillazione a Politica Mista (MPD) comprime le tracce di ragionamento da modelli linguistici di grandi dimensioni in modelli più piccoli, riducendo l'uso di token e il costo di inferenza. I modelli più grandi producono ragionamenti più concisi, mentre quelli più piccoli generano traiettorie più lunghe e ridondanti. MPD trasferisce il comportamento di ragionamento conciso da un insegnante più grande a uno studente più piccolo senza vincoli espliciti di lunghezza, affrontando vincoli di implementazione reali come memoria e latenza.

Fatti principali

1. I LLM incentrati sul ragionamento generano traiettorie di ragionamento intermedie.
2. I modelli più grandi producono tracce più concise rispetto ai modelli più piccoli.
3. I modelli più piccoli hanno traiettorie più lunghe e ridondanti.
4. MPD trasferisce la compressione del ragionamento da modelli grandi a piccoli.
5. MPD utilizza traiettorie dello studente compresse dall'insegnante per la distillazione.
6. Il metodo evita vincoli espliciti di lunghezza.
7. Si rivolge a vincoli di memoria, latenza e costo di servizio.
8. Il paper è su arXiv con ID 2605.08776.

Compressione del Ragionamento tramite Distillazione a Politica Mista

Fatti principali

Entità

Istituzioni

Fonti