PRISM: Nuovo Metodo Allinea Modelli Multimodali Prima dell'Apprendimento per Rinforzo
Un nuovo pipeline a tre fasi chiamato PRISM è stato sviluppato dai ricercatori per migliorare il processo di post-addestramento dei grandi modelli multimodali (LMM) affrontando la deriva distribuzionale che si verifica a causa del fine-tuning supervisionato (SFT). L'approccio convenzionale di SFT seguito da apprendimento per rinforzo con ricompense verificabili (RLVR) presenta problemi di deriva, che possono diminuire le capacità originali e disallineare la supervisione, in particolare nel ragionamento multimodale dove gli errori di percezione e ragionamento possono amplificarsi. PRISM incorpora una fase specifica di allineamento distribuzionale tra SFT e RLVR, utilizzando la distillazione on-policy (OPD) come un gioco avversario black-box che coinvolge la policy e un discriminatore Mixture-of-Experts (MoE), con esperti specializzati in percezione e ragionamento. Questo metodo offre segnali correttivi distinti per ridurre la deriva. I risultati sono disponibili nel preprint arXiv 2604.28123.
Fatti principali
- 1. PRISM è un pipeline a tre fasi per il post-addestramento di grandi modelli multimodali.
- 2. Affronta la deriva distribuzionale derivante dal fine-tuning supervisionato (SFT).
- 3. Ricetta standard: SFT poi apprendimento per rinforzo con ricompense verificabili (RLVR).
- 4. La deriva è amplificata nel ragionamento multimodale a causa di errori di percezione e ragionamento.
- 5. PRISM inserisce una fase di allineamento tra SFT e RLVR.
- 6. Utilizza la distillazione on-policy (OPD) come un gioco avversario black-box.
- 7. Impiega un discriminatore Mixture-of-Experts (MoE) con esperti di percezione e ragionamento.
- 8. Pubblicato su arXiv con ID 2604.28123.
Entità
Istituzioni
- arXiv