Nuovo Framework AI UEC-RL Affronta il Collasso dell'Entropia nel Reinforcement Learning per Modelli Linguistici
È stato lanciato un nuovo approccio chiamato Unified Entropy Control for Reinforcement Learning, o UEC-RL, per affrontare importanti difetti negli attuali metodi di reinforcement learning dell'IA. Mira al collasso dell'entropia, che porta a una convergenza precoce delle politiche e a una mancanza di diversità, un problema spesso riscontrato con la tecnica Group Relative Policy Optimization. UEC-RL include tattiche di esplorazione mirata e di stabilizzazione che migliorano il modo in cui i modelli gestiscono compiti difficili, aiutandoli a trovare percorsi di ragionamento utili mentre controllano la crescita dell'entropia. Questo metodo consente uno spazio di ricerca più ampio e mantiene la stabilità dell'addestramento rafforzando comportamenti coerenti. Documentato come arXiv:2604.14646v2, questo lavoro si basa sui recenti progressi nei grandi modelli linguistici e nei modelli visione-linguaggio, con l'obiettivo di affinare l'esplorazione senza introdurre distorsioni o instabilità.
Fatti principali
- La ricerca propone Unified Entropy Control for Reinforcement Learning (UEC-RL)
- Affronta il collasso dell'entropia in Group Relative Policy Optimization (GRPO)
- UEC-RL attiva più esplorazione su prompt difficili
- Uno stabilizzatore impedisce all'entropia di crescere in modo incontrollabile
- Il framework espande lo spazio di ricerca mantenendo la stabilità dell'addestramento
- La ricerca è documentata come arXiv:2604.14646v2
- Il reinforcement learning ha migliorato il ragionamento in LLM e VLM
- I metodi di esplorazione esistenti introducono distorsioni o varianza
Entità
—