La distillazione ibrida delle politiche ottimizza la compressione degli LLM
Un recente studio pubblicato su arXiv introduce la distillazione ibrida delle politiche (HPD) volta a comprimere i modelli linguistici di grandi dimensioni (LLM). Questo approccio innovativo fonde la divergenza KL forward e reverse per bilanciare efficacemente la copertura delle modalità con la ricerca delle modalità, utilizzando dati off-policy insieme a un efficiente campionamento on-policy. L'HPD è stato testato su vari compiti, tra cui ragionamento matematico a generazione lunga, dialogo a generazione breve e sfide di programmazione, dimostrando una maggiore stabilità di ottimizzazione, efficienza computazionale e prestazioni complessive in diverse famiglie e dimensioni di modelli. Il codice associato è disponibile all'URL specificato. Inoltre, l'articolo offre una prospettiva coesa sulla distillazione della conoscenza, inquadrandola come un obiettivo di log-verosimiglianza ripesato a livello di token.
Fatti principali
- arXiv:2604.20244v1
- Proposta di distillazione ibrida delle politiche (HPD)
- Integra divergenza KL forward e reverse
- Combina dati off-policy con campionamento on-policy approssimato
- Validata su compiti di ragionamento matematico, dialogo e codice
- Migliorata stabilità di ottimizzazione ed efficienza computazionale
- Codice disponibile su https://
- Visione unificata della KD come log-verosimiglianza ripesata
Entità
Istituzioni
- arXiv