SpookyBench Rivela l'Incapacità dei VLM di Percepire Pattern Temporali

ai-technology · 2026-04-30

I ricercatori hanno creato un nuovo benchmark chiamato SpookyBench per testare quanto bene i modelli visione-linguaggio (VLM) comprendano pattern basati sul tempo nei video. A differenza dei benchmark tradizionali che si concentrano sugli aspetti spaziali, SpookyBench utilizza solo sequenze di frame simili a rumore per imitare eventi reali come segnali biologici e comunicazioni segrete. Mentre gli esseri umani possono riconoscere accuratamente forme e pattern in queste sequenze oltre il 98% delle volte, i migliori VLM ottengono uno sconcertante 0%. Ciò evidenzia un problema critico: i VLM si affidano troppo alle caratteristiche spaziali e faticano con gli indizi temporali. Inoltre, la loro capacità di elaborare informazioni temporali si deteriora più velocemente di quella umana quando si trovano di fronte a bassi rapporti segnale-rumore spaziali. I risultati sottolineano una significativa lacuna negli attuali modelli di IA, suggerendo la necessità di un miglior ragionamento temporale. Questa ricerca è apparsa su arXiv con ID 2505.24867.

Fatti principali

SpookyBench è un nuovo benchmark per testare la comprensione temporale nei VLM.
Le informazioni in SpookyBench sono codificate in sequenze temporali di frame simili a rumore.
Gli esseri umani raggiungono oltre il 98% di precisione su SpookyBench.
I VLM allo stato dell'arte ottengono lo 0% di precisione su SpookyBench.
I VLM fanno eccessivo affidamento sulle caratteristiche spaziali e non riescono a estrarre significato dagli indizi temporali.
L'addestramento su dataset con basso SNR spaziale degrada la comprensione temporale più rapidamente nei VLM che negli umani.
Lo studio è stato pubblicato su arXiv con ID 2505.24867.
La ricerca evidenzia una limitazione critica negli attuali sistemi di IA.

SpookyBench Rivela l'Incapacità dei VLM di Percepire Pattern Temporali

Fatti principali

Entità

Istituzioni

Fonti