ARTFEED — Contemporary Art Intelligence

SFFL: Ridurre l'interferenza cross-modale nei LLM audio-visivi

ai-technology · 2026-05-12

Il framework di recente introduzione Separate First, Fuse Later (SFFL) mira a minimizzare l'interferenza cross-modale nei modelli linguistici di grandi dimensioni (LLM) audio-visivi. Questo metodo promuove un ragionamento specifico per ciascuna modalità, generando percorsi di ragionamento distinti per input audio e visivi prima di fondere le informazioni per le risposte. Le etichette di preferenza di modalità vengono create attraverso un data pipeline adattato a varie configurazioni di input di modalità e fungono da ricompensa ausiliaria nell'apprendimento per rinforzo, favorendo una preferenza per i segnali di modalità basata su istanze specifiche. La ricerca è disponibile su arXiv con l'identificatore 2605.09906.

Fatti principali

  • SFFL sta per Separate First, Fuse Later
  • Il framework riduce l'interferenza cross-modale nei LLM audio-visivi
  • Impone un ragionamento chain-of-thought specifico per modalità
  • Produce tracce di ragionamento audio e visivo separate
  • Le etichette di preferenza di modalità sono costruite tramite un data pipeline
  • Le etichette sono utilizzate come ricompensa ausiliaria nell'apprendimento per rinforzo
  • Articolo disponibile su arXiv: 2605.09906
  • Affronta le allucinazioni causate dall'interferenza cross-modale

Entità

Istituzioni

  • arXiv

Fonti