ARTFEED — Contemporary Art Intelligence

Ghost-100: Benchmark per Testare i Modelli Visione-Linguaggio Sotto Prompt Coercitivi

ai-technology · 2026-04-22

Un nuovo articolo di ricerca introduce Ghost-100, un benchmark progettato per valutare come i Modelli Visione-Linguaggio rispondono a formulazioni di prompt coercitive. Lo studio affronta una lacuna nei benchmark esistenti sulle allucinazioni, che tipicamente utilizzano prompt neutri e metodi di rilevamento binari. Ghost-100 contiene 800 immagini generate sinteticamente in otto categorie all'interno di tre famiglie di compiti: illeggibilità del testo, lettura dell'orario e assenza di oggetti. Ogni compito è costruito secondo un principio di verità-negativa, garantendo che l'obiettivo interrogato sia assente, illeggibile o indeterminato. Ogni immagine è associata a cinque prompt provenienti da un Framework Strutturato di Intensità del Prompt a 5 Livelli, consentendo ai ricercatori di misurare sia l'incidenza che l'intensità della fabbricazione sotto pressione linguistica graduata. La ricerca, pubblicata come arXiv:2604.18803v1, esamina i VLM in contesti in cui un ancoraggio visivo affidabile ha conseguenze operative. Il benchmark abbraccia tipi di compiti strutturalmente distinti per fornire una valutazione completa del comportamento del modello. Questo lavoro aiuta a caratterizzare come i VLM si comportano quando affrontano linguaggio progressivamente coercitivo.

Fatti principali

  • Ghost-100 è un benchmark per valutare i Modelli Visione-Linguaggio sotto prompt coercitivi
  • Contiene 800 immagini generate sinteticamente in otto categorie
  • Le immagini coprono tre famiglie di compiti: illeggibilità del testo, lettura dell'orario e assenza di oggetti
  • Ogni compito segue un principio di verità-negativa
  • Ogni immagine è associata a cinque prompt provenienti da un Framework di Intensità del Prompt a 5 Livelli
  • La ricerca è pubblicata come arXiv:2604.18803v1
  • Affronta una lacuna nei benchmark esistenti sulle allucinazioni che utilizzano prompt neutri
  • Misura sia l'incidenza che l'intensità della fabbricazione sotto pressione linguistica

Entità

Fonti