ARTFEED — Contemporary Art Intelligence

Nuovo Framework di Addestramento per Modelli Visione-Linguaggio Affronta le Allucinazioni nel Ragionamento Spaziotemporale

publication · 2026-04-14

È stato sviluppato un nuovo approccio di addestramento per affrontare le significative limitazioni nel ragionamento spaziotemporale all'interno dei Modelli Visione-Linguaggio. Questi modelli mostrano considerevoli cali di prestazioni quando gestiscono query temporali in avanti e all'indietro, indicando una dipendenza da scorciatoie superficiali anziché da una vera comprensione causale. La strategia inizia con un pre-addestramento supervisionato su un nuovo dataset Chain-of-Thought che scompone il ragionamento complesso in chiari passaggi spaziotemporali e giudizi conclusivi, stabilendo quadri logici. Successivamente, viene effettuato un fine-tuning utilizzando dati debolmente etichettati e scalabili per una migliore generalizzazione. I test rivelano che questo metodo non solo migliora l'accuratezza del modello base, ma riduce anche il divario di prestazioni avanti-indietro da oltre il 70% a un intervallo molto più ristretto. Documentata in arXiv:2604.10506v1, la ricerca evidenzia l'allucinazione nel ragionamento multi-immagine come un ostacolo chiave che impedisce ai VLMs di progredire oltre l'interpretazione di immagini statiche, specialmente nelle applicazioni che richiedono ragionamento incarnato e comprensione di sequenze temporali.

Fatti principali

  • I Modelli Visione-Linguaggio affrontano ostacoli nel ragionamento spaziotemporale
  • L'allucinazione nel ragionamento multi-immagine causa cali di prestazioni tra query temporali in avanti e all'indietro
  • Un nuovo dataset Chain-of-Thought scompone il ragionamento in passaggi spaziotemporali
  • L'addestramento progressivo inizia con pre-addestramento supervisionato sul dataset CoT
  • Il fine-tuning utilizza dati debolmente etichettati e scalabili per la generalizzazione
  • L'approccio riduce il divario di prestazioni avanti-indietro da oltre il 70%
  • La ricerca è documentata in arXiv:2604.10506v1
  • La metodologia mira ad applicazioni di ragionamento incarnato

Entità

Fonti