I Modelli Visione-Linguaggio Affrontano una Crisi di Affidabilità
Un nuovo articolo su arXiv mette in discussione l'affidabilità dei Modelli Visione-Linguaggio (VLM), sostenendo che i modelli attuali soffrono di cecità funzionale basandosi su priorità linguistiche piuttosto che su una comprensione visiva fondata. Gli autori propongono un Protocollo di Traduzione della Modalità per quantificare questo problema.
Fatti principali
- Titolo dell'articolo: The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm
- Pubblicato su arXiv con ID 2604.20665
- Critica il paradigma Vision Encoder-Projector-LLM
- Afferma che i VLM mostrano cecità funzionale
- Propone il Protocollo di Traduzione della Modalità come soluzione
- Sostiene che gli attuali metodi di valutazione confondono i bias del dataset con l'incapacità architetturale
- Adotta un approccio basato sulla teoria dell'informazione
- Si concentra sull'affidabilità del ragionamento multimodale
Entità
Istituzioni
- arXiv