Perturbazione Adattiva a Livello di Strati per la Correzione Off-Policy nel RL di LLM
Un approccio innovativo chiamato Perturbazione Adattiva a Livello di Strati (ALP) affronta le sfide off-policy nell'apprendimento per rinforzo per i grandi modelli linguistici (LLM). Problemi come l'obsolescenza della politica e la discrepanza tra addestramento e inferenza ostacolano sia la stabilità dell'addestramento che l'esplorazione nel RL degli LLM. Le tecniche di inferenza avanzate ampliano il divario distributivo tra la politica di inferenza e quella aggiornata, portando a rapporti di importanza significativi. Questi rapporti diventano gonfiati quando la politica è localmente acuta, causando un aumento dei gradienti e aggiornamenti che superano la regione di fiducia. ALP introduce piccole perturbazioni apprendibili negli stati nascosti di ogni strato durante gli aggiornamenti, utilizzando la politica perturbata come numeratore per il rapporto di importanza rispetto alla politica di inferenza statica. Questo rumore controllato nelle rappresentazioni intermedie aiuta a mantenere l'allineamento tra la politica aggiornata e quella di inferenza. Il metodo è descritto in un articolo su arXiv (2603.19470).
Fatti principali
- ALP affronta i problemi off-policy nel RL degli LLM.
- I problemi off-policy includono l'obsolescenza della politica e la discrepanza tra addestramento e inferenza.
- Il divario distributivo cresce a causa delle tecniche di efficienza dell'inferenza.
- Rapporti di importanza a coda pesante derivano da politiche localmente acute.
- I rapporti a coda pesante gonfiano i gradienti e spingono gli aggiornamenti fuori dalla regione di fiducia.
- ALP inietta perturbazioni apprendibili negli stati nascosti di ogni strato.
- La politica perturbata viene utilizzata come numeratore del rapporto di importanza.
- L'articolo è disponibile su arXiv con ID 2603.19470.
Entità
Istituzioni
- arXiv