Metodo di auto-captioning migliora la robustezza dei modelli visione-linguaggio
Un nuovo articolo su arXiv (2605.08145) propone un flusso di lavoro di auto-captioning per migliorare la robustezza dei modelli visione-linguaggio contro allucinazioni e modalità corrotte. L'approccio amplifica le interazioni multimodali ridondanti—informazioni condivise tra visione e linguaggio—per compensare le modalità compromesse. Un Gate di Interazione Multimodale converte le interazioni uniche in interazioni ridondanti, aumentando le informazioni condivise sfruttabili. Gli autori scoprono che i moderni dataset di istruzioni spesso eliminano le ridondanze per il grounding visivo, problema che questo metodo affronta. Aumentare la ridondanza riduce gli errori indotti dalla visione.
Fatti principali
- ID articolo arXiv: 2605.08145
- Affronta allucinazione e robustezza nei modelli visione-linguaggio
- Sfrutta informazioni condivise tra le modalità
- Introduce il Gate di Interazione Multimodale
- Converte interazioni uniche in interazioni ridondanti
- I moderni dataset di istruzioni riducono le ridondanze
- Aumentare la ridondanza riduce gli errori indotti dalla visione
Entità
Istituzioni
- arXiv