SFFL: Ridurre l'interferenza cross-modale nei LLM audio-visivi
Il framework di recente introduzione Separate First, Fuse Later (SFFL) mira a minimizzare l'interferenza cross-modale nei modelli linguistici di grandi dimensioni (LLM) audio-visivi. Questo metodo promuove un ragionamento specifico per ciascuna modalità, generando percorsi di ragionamento distinti per input audio e visivi prima di fondere le informazioni per le risposte. Le etichette di preferenza di modalità vengono create attraverso un data pipeline adattato a varie configurazioni di input di modalità e fungono da ricompensa ausiliaria nell'apprendimento per rinforzo, favorendo una preferenza per i segnali di modalità basata su istanze specifiche. La ricerca è disponibile su arXiv con l'identificatore 2605.09906.
Fatti principali
- SFFL sta per Separate First, Fuse Later
- Il framework riduce l'interferenza cross-modale nei LLM audio-visivi
- Impone un ragionamento chain-of-thought specifico per modalità
- Produce tracce di ragionamento audio e visivo separate
- Le etichette di preferenza di modalità sono costruite tramite un data pipeline
- Le etichette sono utilizzate come ricompensa ausiliaria nell'apprendimento per rinforzo
- Articolo disponibile su arXiv: 2605.09906
- Affronta le allucinazioni causate dall'interferenza cross-modale
Entità
Istituzioni
- arXiv