La distillazione ibrida delle politiche ottimizza la compressione degli LLM

ai-technology · 2026-04-24

Un recente studio pubblicato su arXiv introduce la distillazione ibrida delle politiche (HPD) volta a comprimere i modelli linguistici di grandi dimensioni (LLM). Questo approccio innovativo fonde la divergenza KL forward e reverse per bilanciare efficacemente la copertura delle modalità con la ricerca delle modalità, utilizzando dati off-policy insieme a un efficiente campionamento on-policy. L'HPD è stato testato su vari compiti, tra cui ragionamento matematico a generazione lunga, dialogo a generazione breve e sfide di programmazione, dimostrando una maggiore stabilità di ottimizzazione, efficienza computazionale e prestazioni complessive in diverse famiglie e dimensioni di modelli. Il codice associato è disponibile all'URL specificato. Inoltre, l'articolo offre una prospettiva coesa sulla distillazione della conoscenza, inquadrandola come un obiettivo di log-verosimiglianza ripesato a livello di token.

Fatti principali

arXiv:2604.20244v1
Proposta di distillazione ibrida delle politiche (HPD)
Integra divergenza KL forward e reverse
Combina dati off-policy con campionamento on-policy approssimato
Validata su compiti di ragionamento matematico, dialogo e codice
Migliorata stabilità di ottimizzazione ed efficienza computazionale
Codice disponibile su https://
Visione unificata della KD come log-verosimiglianza ripesata

La distillazione ibrida delle politiche ottimizza la compressione degli LLM

Fatti principali

Entità

Istituzioni

Fonti