ARTFEED — Contemporary Art Intelligence

Il Ragionamento a Catena del Pensiero Compromette l'Intelligenza Spaziale nei Modelli AI Multimodali

ai-technology · 2026-04-20

Una valutazione approfondita di diciassette modelli di ragionamento multimodale testati su tredici benchmark spaziali indica che il prompting a Catena del Pensiero compromette sistematicamente le prestazioni nelle sfide di ragionamento spaziale visivo. Sebbene le metodologie basate su CoT abbiano rivoluzionato la risoluzione di problemi matematici e logici, esse vacillano nell'intelligenza spaziale generalizzata. Un nuovo studio di ablazione No-Image++ ha rivelato che i MRM e gli MLM con prompting CoT subiscono un significativo apprendimento di scorciatoie, spesso fabbricando elementi visivi dal testo anche in assenza di immagini. Questi risultati mettono in discussione l'efficacia del CoT basato solo su testo per compiti spaziali e sottolineano la necessità di framework di ragionamento centrati sulla visione. Pubblicato su arXiv, questa ricerca rivela una significativa carenza nelle strategie AI multimodali esistenti per il ragionamento spaziale.

Fatti principali

  • Il prompting a Catena del Pensiero degrada le prestazioni nel ragionamento spaziale visivo
  • Sono stati valutati diciassette modelli di ragionamento multimodale
  • Tredici benchmark spaziali sono stati utilizzati nella valutazione
  • I modelli soffrono di grave apprendimento di scorciatoie
  • I modelli allucinano dettagli visivi da prior testuali
  • Il CoT basato solo su testo è inefficace per compiti spaziali
  • Sono necessari paradigmi di ragionamento centrati sulla visione
  • La ricerca è stata pubblicata su arXiv

Entità

Istituzioni

  • arXiv

Fonti