PRISM: Nuovo Metodo Allinea Modelli Multimodali Prima dell'Apprendimento per Rinforzo

ai-technology · 2026-05-01

Un nuovo pipeline a tre fasi chiamato PRISM è stato sviluppato dai ricercatori per migliorare il processo di post-addestramento dei grandi modelli multimodali (LMM) affrontando la deriva distribuzionale che si verifica a causa del fine-tuning supervisionato (SFT). L'approccio convenzionale di SFT seguito da apprendimento per rinforzo con ricompense verificabili (RLVR) presenta problemi di deriva, che possono diminuire le capacità originali e disallineare la supervisione, in particolare nel ragionamento multimodale dove gli errori di percezione e ragionamento possono amplificarsi. PRISM incorpora una fase specifica di allineamento distribuzionale tra SFT e RLVR, utilizzando la distillazione on-policy (OPD) come un gioco avversario black-box che coinvolge la policy e un discriminatore Mixture-of-Experts (MoE), con esperti specializzati in percezione e ragionamento. Questo metodo offre segnali correttivi distinti per ridurre la deriva. I risultati sono disponibili nel preprint arXiv 2604.28123.

Fatti principali

1. PRISM è un pipeline a tre fasi per il post-addestramento di grandi modelli multimodali.
2. Affronta la deriva distribuzionale derivante dal fine-tuning supervisionato (SFT).
3. Ricetta standard: SFT poi apprendimento per rinforzo con ricompense verificabili (RLVR).
4. La deriva è amplificata nel ragionamento multimodale a causa di errori di percezione e ragionamento.
5. PRISM inserisce una fase di allineamento tra SFT e RLVR.
6. Utilizza la distillazione on-policy (OPD) come un gioco avversario black-box.
7. Impiega un discriminatore Mixture-of-Experts (MoE) con esperti di percezione e ragionamento.
8. Pubblicato su arXiv con ID 2604.28123.

PRISM: Nuovo Metodo Allinea Modelli Multimodali Prima dell'Apprendimento per Rinforzo

Fatti principali

Entità

Istituzioni

Fonti