ReAD: Distillazione delle capacità guidata dal rinforzo per LLM

ai-technology · 2026-05-13

Un nuovo framework chiamato ReAD (Reinforcement-guided cApability Distillation) affronta la sfida di comprimere grandi modelli linguistici (LLM) in modelli più piccoli, preservando le abilità specifiche per i compiti. Gli attuali metodi di distillazione delle capacità trattano le capacità come indipendenti, ignorando come il miglioramento di una capacità influenzi le altre. ReAD modella esplicitamente l'interdipendenza delle capacità sotto un budget di token fisso, sfruttando l'apprendimento per rinforzo per ottimizzare il processo di distillazione. L'approccio si basa su schemi osservati: la distillazione induce un trasferimento sistematico di capacità incrociate che dipende dal budget, e un budget aggiuntivo spesso produce guadagni limitati rilevanti per il compito, mentre può degradare altre abilità. Inferendo le capacità essenziali per il compito e guidando il loro sviluppo, ReAD mira a produrre modelli più piccoli più efficienti ed efficaci per compiti downstream.

Fatti principali

1. ReAD è un framework di distillazione delle capacità guidata dal rinforzo per LLM.
2. Affronta l'interdipendenza delle capacità nella distillazione della conoscenza.
3. I metodi attuali trattano le capacità come obiettivi di addestramento indipendenti.
4. La distillazione induce un trasferimento sistematico di capacità incrociate dipendente dal budget.
5. Un budget aggiuntivo spesso porta guadagni limitati rilevanti per il compito.
6. Un budget extra può talvolta degradare altre abilità utili.
7. ReAD tiene conto esplicitamente dell'interdipendenza delle capacità.
8. Il framework utilizza l'apprendimento per rinforzo per guidare la distillazione.

ReAD: Distillazione delle capacità guidata dal rinforzo per LLM

Fatti principali

Entità

Istituzioni

Fonti