ARTFEED — Contemporary Art Intelligence

Fattori Architetturali alla Base della Robustezza delle Allucinazioni nei LVLM

ai-technology · 2026-06-01

Un nuovo studio da arXiv (2605.30911) indaga come il design architetturale dei Large Vision-Language Model (LVLM) influenzi le allucinazioni. Gli autori scompongono l'architettura in Fondamento Linguistico, Rappresentazione Visiva e Allineamento Semantico, e categorizzano le allucinazioni in tipi di Co-occorrenza, Similarità e Incertezza. Introducono il benchmark CoSimUE, che utilizza perturbazioni testuali controllate e casuali per creare scenari di allucinazione a grana fine. Esperimenti su sette aspetti di design rivelano che l'aumento dei parametri del modello non riduce costantemente le allucinazioni.

Fatti principali

  • 1. L'allucinazione mina l'affidabilità dei LVLM.
  • 2. Il design architetturale è un fattore chiave nell'allucinazione.
  • 3. Tre dimensioni: Fondamento Linguistico, Rappresentazione Visiva, Allineamento Semantico.
  • 4. Tre tipi di allucinazione: Co-occorrenza, Similarità, Incertezza.
  • 5. Il benchmark CoSimUE crea scenari a grana fine tramite perturbazioni.
  • 6. Gli esperimenti coprono sette aspetti di design.
  • 7. L'aumento dei parametri non riduce costantemente le allucinazioni.
  • 8. Studio pubblicato su arXiv (2605.30911).

Entità

Istituzioni

  • arXiv

Fonti