ARTFEED — Contemporary Art Intelligence

Bias di Ancoraggio Visivo Scoperto nei Modelli Visione-Linguaggio

ai-technology · 2026-05-13

Una recente indagine indica che la presenza di ancore numeriche all'interno delle immagini distorce significativamente le valutazioni di qualità nei Modelli Visione-Linguaggio. Questo studio, disponibile su arXiv, ha valutato sei VLM appartenenti a cinque diverse famiglie architetturali e ha scoperto che l'influenza delle ancore è 2,5 volte maggiore rispetto a quella di un grave deterioramento della qualità dell'immagine, dimostrando che il bias non può essere attribuito esclusivamente ad alterazioni visive. Attraverso un probing a livello di layer, è stata osservata una chiara dissociazione: i layer in cui la classificazione delle ancore raggiunge la saturazione (L12-L34) sono meno efficaci per la previsione della qualità, mentre i layer ottimali si trovano più in profondità (R^2 = 0,69-0,91). L'analisi di fusione rivela che l'integrazione varia a seconda dell'architettura, con due modelli che mostrano una fusione immediata a L1-L2, mentre altri tre presentano una fusione parziale o assente. Questi risultati forniscono una spiegazione causale per il bias di ancoraggio visivo, collegando la vulnerabilità comportamentale alle dinamiche di rappresentazione.

Fatti principali

  • Ancore numeriche incorporate nelle immagini influenzano i giudizi di qualità dei Modelli Visione-Linguaggio.
  • Sono stati testati sei VLM provenienti da cinque famiglie architetturali.
  • ANOVA eta^2 = 0,18-0,77, tutti p < 0,001.
  • Gli effetti delle ancore sono 2,5 volte maggiori rispetto a un grave degrado della qualità dell'immagine.
  • Il probing a livello di layer rivela una dissociazione tra classificazione delle ancore e previsione della qualità.
  • La classificazione delle ancore satura ai layer L12-L34.
  • I layer ottimali per la previsione della qualità sono più profondi (R^2 = 0,69-0,91).
  • L'analisi di fusione mostra un'integrazione dipendente dall'architettura: fusione istantanea a L1-L2 in due modelli, fusione parziale o assente in altri tre.

Entità

Istituzioni

  • arXiv

Fonti