SpookyBench Rivela l'Incapacità dei VLM di Percepire Pattern Temporali
I ricercatori hanno creato un nuovo benchmark chiamato SpookyBench per testare quanto bene i modelli visione-linguaggio (VLM) comprendano pattern basati sul tempo nei video. A differenza dei benchmark tradizionali che si concentrano sugli aspetti spaziali, SpookyBench utilizza solo sequenze di frame simili a rumore per imitare eventi reali come segnali biologici e comunicazioni segrete. Mentre gli esseri umani possono riconoscere accuratamente forme e pattern in queste sequenze oltre il 98% delle volte, i migliori VLM ottengono uno sconcertante 0%. Ciò evidenzia un problema critico: i VLM si affidano troppo alle caratteristiche spaziali e faticano con gli indizi temporali. Inoltre, la loro capacità di elaborare informazioni temporali si deteriora più velocemente di quella umana quando si trovano di fronte a bassi rapporti segnale-rumore spaziali. I risultati sottolineano una significativa lacuna negli attuali modelli di IA, suggerendo la necessità di un miglior ragionamento temporale. Questa ricerca è apparsa su arXiv con ID 2505.24867.
Fatti principali
- SpookyBench è un nuovo benchmark per testare la comprensione temporale nei VLM.
- Le informazioni in SpookyBench sono codificate in sequenze temporali di frame simili a rumore.
- Gli esseri umani raggiungono oltre il 98% di precisione su SpookyBench.
- I VLM allo stato dell'arte ottengono lo 0% di precisione su SpookyBench.
- I VLM fanno eccessivo affidamento sulle caratteristiche spaziali e non riescono a estrarre significato dagli indizi temporali.
- L'addestramento su dataset con basso SNR spaziale degrada la comprensione temporale più rapidamente nei VLM che negli umani.
- Lo studio è stato pubblicato su arXiv con ID 2505.24867.
- La ricerca evidenzia una limitazione critica negli attuali sistemi di IA.
Entità
Istituzioni
- arXiv