Il Ragionamento a Catena del Pensiero Compromette l'Intelligenza Spaziale nei Modelli AI Multimodali

ai-technology · 2026-04-20

Una valutazione approfondita di diciassette modelli di ragionamento multimodale testati su tredici benchmark spaziali indica che il prompting a Catena del Pensiero compromette sistematicamente le prestazioni nelle sfide di ragionamento spaziale visivo. Sebbene le metodologie basate su CoT abbiano rivoluzionato la risoluzione di problemi matematici e logici, esse vacillano nell'intelligenza spaziale generalizzata. Un nuovo studio di ablazione No-Image++ ha rivelato che i MRM e gli MLM con prompting CoT subiscono un significativo apprendimento di scorciatoie, spesso fabbricando elementi visivi dal testo anche in assenza di immagini. Questi risultati mettono in discussione l'efficacia del CoT basato solo su testo per compiti spaziali e sottolineano la necessità di framework di ragionamento centrati sulla visione. Pubblicato su arXiv, questa ricerca rivela una significativa carenza nelle strategie AI multimodali esistenti per il ragionamento spaziale.

Fatti principali

Il prompting a Catena del Pensiero degrada le prestazioni nel ragionamento spaziale visivo
Sono stati valutati diciassette modelli di ragionamento multimodale
Tredici benchmark spaziali sono stati utilizzati nella valutazione
I modelli soffrono di grave apprendimento di scorciatoie
I modelli allucinano dettagli visivi da prior testuali
Il CoT basato solo su testo è inefficace per compiti spaziali
Sono necessari paradigmi di ragionamento centrati sulla visione
La ricerca è stata pubblicata su arXiv

Il Ragionamento a Catena del Pensiero Compromette l'Intelligenza Spaziale nei Modelli AI Multimodali

Fatti principali

Entità

Istituzioni

Fonti