Nuovo Framework di Addestramento per Modelli Visione-Linguaggio Affronta le Allucinazioni nel Ragionamento Spaziotemporale

publication · 2026-04-14

È stato sviluppato un nuovo approccio di addestramento per affrontare le significative limitazioni nel ragionamento spaziotemporale all'interno dei Modelli Visione-Linguaggio. Questi modelli mostrano considerevoli cali di prestazioni quando gestiscono query temporali in avanti e all'indietro, indicando una dipendenza da scorciatoie superficiali anziché da una vera comprensione causale. La strategia inizia con un pre-addestramento supervisionato su un nuovo dataset Chain-of-Thought che scompone il ragionamento complesso in chiari passaggi spaziotemporali e giudizi conclusivi, stabilendo quadri logici. Successivamente, viene effettuato un fine-tuning utilizzando dati debolmente etichettati e scalabili per una migliore generalizzazione. I test rivelano che questo metodo non solo migliora l'accuratezza del modello base, ma riduce anche il divario di prestazioni avanti-indietro da oltre il 70% a un intervallo molto più ristretto. Documentata in arXiv:2604.10506v1, la ricerca evidenzia l'allucinazione nel ragionamento multi-immagine come un ostacolo chiave che impedisce ai VLMs di progredire oltre l'interpretazione di immagini statiche, specialmente nelle applicazioni che richiedono ragionamento incarnato e comprensione di sequenze temporali.

Fatti principali

I Modelli Visione-Linguaggio affrontano ostacoli nel ragionamento spaziotemporale
L'allucinazione nel ragionamento multi-immagine causa cali di prestazioni tra query temporali in avanti e all'indietro
Un nuovo dataset Chain-of-Thought scompone il ragionamento in passaggi spaziotemporali
L'addestramento progressivo inizia con pre-addestramento supervisionato sul dataset CoT
Il fine-tuning utilizza dati debolmente etichettati e scalabili per la generalizzazione
L'approccio riduce il divario di prestazioni avanti-indietro da oltre il 70%
La ricerca è documentata in arXiv:2604.10506v1
La metodologia mira ad applicazioni di ragionamento incarnato

Entità

—

Fonti

arXiv cs.AI — 2026-04-14