ARTFEED — Contemporary Art Intelligence

La distillazione della maschera d'ombra riduce la memoria della cache KV nel post-addestramento RL

ai-technology · 2026-05-11

Un nuovo metodo chiamato Shadow Mask Distillation (SMD) affronta il collo di bottiglia della memoria nel post-addestramento con apprendimento per rinforzo (RL) dei grandi modelli linguistici (LLM). Durante l'RL online, la fase di rollout genera traiettorie esplorative, ma i compiti di ragionamento a lungo contesto causano un'enorme impronta della cache Key-Value (KV), creando un "muro di memoria". Le tecniche esistenti di compressione della cache KV, sebbene quasi senza perdita durante l'inferenza standard, introducono un bias off-policy quando applicate durante i rollout perché anche piccoli errori di approssimazione vengono amplificati dall'instabilità dell'RL. SMD mitiga questo problema distillando un insegnante a contesto completo in uno studente a contesto sparso, consentendo un allineamento efficiente in termini di memoria senza sacrificare le prestazioni. Il metodo è compatibile con framework RL popolari come RLHF, RLAIF, PPO, GRPO e Online DPO. Gli esperimenti mostrano che SMD riduce la memoria della cache KV fino a 4x mantenendo o migliorando l'accuratezza dei compiti su benchmark di ragionamento a lungo contesto. Il paper è disponibile su arXiv con ID 2605.06850.

Fatti principali

  • Shadow Mask Distillation (SMD) è proposto per un post-addestramento RL efficiente in termini di memoria.
  • L'RL online richiede una fase di rollout che crea una grande impronta della cache KV.
  • La compressione della cache KV durante i rollout causa un bias off-policy.
  • SMD utilizza la distillazione da un insegnante a contesto completo a uno studente a contesto sparso.
  • Il metodo funziona con RLHF, RLAIF, PPO, GRPO e Online DPO.
  • SMD riduce la memoria della cache KV fino a 4x.
  • L'accuratezza dei compiti viene mantenuta o migliorata su benchmark di ragionamento a lungo contesto.
  • Il paper è arXiv:2605.06850.

Entità

Istituzioni

  • arXiv

Fonti