Fattori Architetturali alla Base della Robustezza delle Allucinazioni nei LVLM
Un nuovo studio da arXiv (2605.30911) indaga come il design architetturale dei Large Vision-Language Model (LVLM) influenzi le allucinazioni. Gli autori scompongono l'architettura in Fondamento Linguistico, Rappresentazione Visiva e Allineamento Semantico, e categorizzano le allucinazioni in tipi di Co-occorrenza, Similarità e Incertezza. Introducono il benchmark CoSimUE, che utilizza perturbazioni testuali controllate e casuali per creare scenari di allucinazione a grana fine. Esperimenti su sette aspetti di design rivelano che l'aumento dei parametri del modello non riduce costantemente le allucinazioni.
Fatti principali
- 1. L'allucinazione mina l'affidabilità dei LVLM.
- 2. Il design architetturale è un fattore chiave nell'allucinazione.
- 3. Tre dimensioni: Fondamento Linguistico, Rappresentazione Visiva, Allineamento Semantico.
- 4. Tre tipi di allucinazione: Co-occorrenza, Similarità, Incertezza.
- 5. Il benchmark CoSimUE crea scenari a grana fine tramite perturbazioni.
- 6. Gli esperimenti coprono sette aspetti di design.
- 7. L'aumento dei parametri non riduce costantemente le allucinazioni.
- 8. Studio pubblicato su arXiv (2605.30911).
Entità
Istituzioni
- arXiv