Compressione del Ragionamento tramite Distillazione a Politica Mista
Un nuovo metodo chiamato Distillazione a Politica Mista (MPD) comprime le tracce di ragionamento da modelli linguistici di grandi dimensioni in modelli più piccoli, riducendo l'uso di token e il costo di inferenza. I modelli più grandi producono ragionamenti più concisi, mentre quelli più piccoli generano traiettorie più lunghe e ridondanti. MPD trasferisce il comportamento di ragionamento conciso da un insegnante più grande a uno studente più piccolo senza vincoli espliciti di lunghezza, affrontando vincoli di implementazione reali come memoria e latenza.
Fatti principali
- 1. I LLM incentrati sul ragionamento generano traiettorie di ragionamento intermedie.
- 2. I modelli più grandi producono tracce più concise rispetto ai modelli più piccoli.
- 3. I modelli più piccoli hanno traiettorie più lunghe e ridondanti.
- 4. MPD trasferisce la compressione del ragionamento da modelli grandi a piccoli.
- 5. MPD utilizza traiettorie dello studente compresse dall'insegnante per la distillazione.
- 6. Il metodo evita vincoli espliciti di lunghezza.
- 7. Si rivolge a vincoli di memoria, latenza e costo di servizio.
- 8. Il paper è su arXiv con ID 2605.08776.
Entità
Istituzioni
- arXiv