SFFL: Ridurre l'interferenza cross-modale nei LLM audio-visivi

ai-technology · 2026-05-12

Il framework di recente introduzione Separate First, Fuse Later (SFFL) mira a minimizzare l'interferenza cross-modale nei modelli linguistici di grandi dimensioni (LLM) audio-visivi. Questo metodo promuove un ragionamento specifico per ciascuna modalità, generando percorsi di ragionamento distinti per input audio e visivi prima di fondere le informazioni per le risposte. Le etichette di preferenza di modalità vengono create attraverso un data pipeline adattato a varie configurazioni di input di modalità e fungono da ricompensa ausiliaria nell'apprendimento per rinforzo, favorendo una preferenza per i segnali di modalità basata su istanze specifiche. La ricerca è disponibile su arXiv con l'identificatore 2605.09906.

Fatti principali

SFFL sta per Separate First, Fuse Later
Il framework riduce l'interferenza cross-modale nei LLM audio-visivi
Impone un ragionamento chain-of-thought specifico per modalità
Produce tracce di ragionamento audio e visivo separate
Le etichette di preferenza di modalità sono costruite tramite un data pipeline
Le etichette sono utilizzate come ricompensa ausiliaria nell'apprendimento per rinforzo
Articolo disponibile su arXiv: 2605.09906
Affronta le allucinazioni causate dall'interferenza cross-modale

SFFL: Ridurre l'interferenza cross-modale nei LLM audio-visivi

Fatti principali

Entità

Istituzioni

Fonti