ARTFEED — Contemporary Art Intelligence

La distillazione ibrida delle politiche ottimizza la compressione degli LLM

ai-technology · 2026-04-24

Un recente studio pubblicato su arXiv introduce la distillazione ibrida delle politiche (HPD) volta a comprimere i modelli linguistici di grandi dimensioni (LLM). Questo approccio innovativo fonde la divergenza KL forward e reverse per bilanciare efficacemente la copertura delle modalità con la ricerca delle modalità, utilizzando dati off-policy insieme a un efficiente campionamento on-policy. L'HPD è stato testato su vari compiti, tra cui ragionamento matematico a generazione lunga, dialogo a generazione breve e sfide di programmazione, dimostrando una maggiore stabilità di ottimizzazione, efficienza computazionale e prestazioni complessive in diverse famiglie e dimensioni di modelli. Il codice associato è disponibile all'URL specificato. Inoltre, l'articolo offre una prospettiva coesa sulla distillazione della conoscenza, inquadrandola come un obiettivo di log-verosimiglianza ripesato a livello di token.

Fatti principali

  • arXiv:2604.20244v1
  • Proposta di distillazione ibrida delle politiche (HPD)
  • Integra divergenza KL forward e reverse
  • Combina dati off-policy con campionamento on-policy approssimato
  • Validata su compiti di ragionamento matematico, dialogo e codice
  • Migliorata stabilità di ottimizzazione ed efficienza computazionale
  • Codice disponibile su https://
  • Visione unificata della KD come log-verosimiglianza ripesata

Entità

Istituzioni

  • arXiv

Fonti