DMPO: Un Nuovo Metodo RL per Prevenire il Mode Collapse nel Ragionamento Diversificato
Un nuovo metodo di apprendimento per rinforzo chiamato DMPO (Distribution-Matching Policy Optimization) affronta il mode collapse negli algoritmi on-policy come GRPO. Il mode collapse si verifica quando i modelli concentrano la massa di probabilità su un'unica soluzione, cessando di esplorare alternative. Gli autori mostrano che ciò deriva dal comportamento di ricerca della modalità della minimizzazione della KL inversa. DMPO approssima la minimizzazione della KL diretta costruendo una distribuzione target a livello di gruppo sulle traiettorie campionate proporzionale ai loro reward e allineando la distribuzione della policy ad essa. Ciò fornisce un comportamento di copertura delle modalità senza campionare dal target globale intrattabile, consentendo un'esplorazione sostenuta. Il metodo è validato su problemi combinatori NP-hard, dimostrando una diversità mantenuta nel ragionamento.
Fatti principali
- I metodi RL on-policy come GRPO soffrono di mode collapse.
- Il mode collapse riduce la diversità delle soluzioni e blocca l'esplorazione.
- La causa è il comportamento di ricerca della modalità della minimizzazione della KL inversa.
- DMPO approssima la minimizzazione della KL diretta per prevenire il mode collapse.
- DMPO costruisce una distribuzione target a livello di gruppo proporzionale ai reward.
- DMPO allinea la distribuzione della policy al target senza campionamento globale.
- DMPO consente un'esplorazione sostenuta durante l'addestramento.
- La validazione su problemi combinatori NP-hard mostra una diversità mantenuta.
Entità
Istituzioni
- arXiv