Metodo di auto-captioning migliora la robustezza dei modelli visione-linguaggio

ai-technology · 2026-05-12

Un nuovo articolo su arXiv (2605.08145) propone un flusso di lavoro di auto-captioning per migliorare la robustezza dei modelli visione-linguaggio contro allucinazioni e modalità corrotte. L'approccio amplifica le interazioni multimodali ridondanti—informazioni condivise tra visione e linguaggio—per compensare le modalità compromesse. Un Gate di Interazione Multimodale converte le interazioni uniche in interazioni ridondanti, aumentando le informazioni condivise sfruttabili. Gli autori scoprono che i moderni dataset di istruzioni spesso eliminano le ridondanze per il grounding visivo, problema che questo metodo affronta. Aumentare la ridondanza riduce gli errori indotti dalla visione.

Fatti principali

ID articolo arXiv: 2605.08145
Affronta allucinazione e robustezza nei modelli visione-linguaggio
Sfrutta informazioni condivise tra le modalità
Introduce il Gate di Interazione Multimodale
Converte interazioni uniche in interazioni ridondanti
I moderni dataset di istruzioni riducono le ridondanze
Aumentare la ridondanza riduce gli errori indotti dalla visione

Metodo di auto-captioning migliora la robustezza dei modelli visione-linguaggio

Fatti principali

Entità

Istituzioni

Fonti