Il framework CoSee rivela le modalità di fallimento nell'IA visiva collaborativa
Una recente pubblicazione su arXiv presenta CoSee, un framework di auditing progettato per formalizzare il ciclo lettura-scrittura-verifica per tracciare il flusso di informazioni nel visual question answering documentale. Lo studio indaga le dinamiche di fallimento associate al ragionamento collaborativo utilizzando modelli deboli (modelli da 4B a 8B) e l'impatto dell'accumulo di rumore. Attraverso test su benchmark multipagina, grafici e basati sul web, i ricercatori hanno scoperto che gli spazi di lavoro condivisi ingenui tendono ad amplificare le allucinazioni invece di mitigarle. Hanno identificato due modalità di fallimento principali: il Rinforzo del Rumore, in cui note non fondate servono come prova, e il Collasso delle Politiche, in cui un contesto aggiuntivo porta a risposte brevi e sotto-specificate. La ricerca indica che una maggiore potenza computazionale può influenzare negativamente le prestazioni in scenari a bassa capacità, come mostrato dalle frontiere di Pareto costo-precisione. Questo articolo è catalogato come arXiv:2605.31354.
Fatti principali
- Lo studio si concentra sulle modalità di fallimento della collaborazione a stato condiviso in agenti visivi con risorse limitate.
- Il framework CoSee formalizza il ciclo lettura-scrittura-verifica per tracciare il flusso di informazioni.
- Negli esperimenti vengono utilizzati modelli deboli da 4B a 8B.
- I benchmark includono compiti VQA documentali multipagina, grafici e basati sul web.
- Gli spazi di lavoro condivisi ingenui possono amplificare le allucinazioni.
- Sono state identificate due modalità di fallimento: Rinforzo del Rumore e Collasso delle Politiche.
- Le frontiere di Pareto costo-precisione mostrano che un aumento del calcolo può correlarsi negativamente con le prestazioni.
- L'articolo è pubblicato su arXiv con identificativo 2605.31354.
Entità
Istituzioni
- arXiv