Fattori Architetturali alla Base della Robustezza delle Allucinazioni nei LVLM

ai-technology · 2026-06-01

Un nuovo studio da arXiv (2605.30911) indaga come il design architetturale dei Large Vision-Language Model (LVLM) influenzi le allucinazioni. Gli autori scompongono l'architettura in Fondamento Linguistico, Rappresentazione Visiva e Allineamento Semantico, e categorizzano le allucinazioni in tipi di Co-occorrenza, Similarità e Incertezza. Introducono il benchmark CoSimUE, che utilizza perturbazioni testuali controllate e casuali per creare scenari di allucinazione a grana fine. Esperimenti su sette aspetti di design rivelano che l'aumento dei parametri del modello non riduce costantemente le allucinazioni.

Fatti principali

1. L'allucinazione mina l'affidabilità dei LVLM.
2. Il design architetturale è un fattore chiave nell'allucinazione.
3. Tre dimensioni: Fondamento Linguistico, Rappresentazione Visiva, Allineamento Semantico.
4. Tre tipi di allucinazione: Co-occorrenza, Similarità, Incertezza.
5. Il benchmark CoSimUE crea scenari a grana fine tramite perturbazioni.
6. Gli esperimenti coprono sette aspetti di design.
7. L'aumento dei parametri non riduce costantemente le allucinazioni.
8. Studio pubblicato su arXiv (2605.30911).

Fattori Architetturali alla Base della Robustezza delle Allucinazioni nei LVLM

Fatti principali

Entità

Istituzioni

Fonti