ML-FOP-SOAP: Ottimizzazione del Secondo Ordine per Modelli Multimodali
Un nuovo framework di ottimizzazione, ML-FOP-SOAP, affronta la competizione tra modalità nei modelli multimodali addestrati con previsione autoregressiva del token successivo. Il metodo introduce la Correzione della Varianza a Più Livelli tramite Proiezione Fisher-Orthogonale per ridurre i conflitti tra generazione visiva e comprensione del testo. Si basa sul precondizionamento del secondo ordine (SOAP) per gestire l'eterogeneità del gradiente tra modalità, con cui gli ottimizzatori del primo ordine come AdamW faticano. Una strategia di folding gerarchico consente un addestramento pratico con batch grandi e basso overhead. Esperimenti su Janus e Emu3 mostrano miglioramenti consistenti. L'articolo è disponibile su arXiv (2605.16165).
Fatti principali
- ML-FOP-SOAP è un framework di ottimizzazione del secondo ordine con Correzione della Varianza a Più Livelli.
- Affronta la competizione tra modalità nei modelli autoregressivi multimodali.
- La Proiezione Fisher-Orthogonale sopprime i conflitti di modalità indotti dalla varianza.
- Gli ottimizzatori del primo ordine come AdamW sono vulnerabili all'eterogeneità del gradiente tra modalità.
- Il precondizionamento del secondo ordine (SOAP) fornisce una base più stabile per l'allineamento multimodale.
- Una strategia di folding gerarchico cattura la varianza a grana fine con basso overhead di micro-step.
- Gli esperimenti sono stati condotti sui modelli Janus e Emu3.
- L'articolo è pubblicato su arXiv con ID 2605.16165.
Entità
Istituzioni
- arXiv