Nuovo Framework di Addestramento per Modelli Visione-Linguaggio Affronta le Allucinazioni nel Ragionamento Spaziotemporale
È stato sviluppato un nuovo approccio di addestramento per affrontare le significative limitazioni nel ragionamento spaziotemporale all'interno dei Modelli Visione-Linguaggio. Questi modelli mostrano considerevoli cali di prestazioni quando gestiscono query temporali in avanti e all'indietro, indicando una dipendenza da scorciatoie superficiali anziché da una vera comprensione causale. La strategia inizia con un pre-addestramento supervisionato su un nuovo dataset Chain-of-Thought che scompone il ragionamento complesso in chiari passaggi spaziotemporali e giudizi conclusivi, stabilendo quadri logici. Successivamente, viene effettuato un fine-tuning utilizzando dati debolmente etichettati e scalabili per una migliore generalizzazione. I test rivelano che questo metodo non solo migliora l'accuratezza del modello base, ma riduce anche il divario di prestazioni avanti-indietro da oltre il 70% a un intervallo molto più ristretto. Documentata in arXiv:2604.10506v1, la ricerca evidenzia l'allucinazione nel ragionamento multi-immagine come un ostacolo chiave che impedisce ai VLMs di progredire oltre l'interpretazione di immagini statiche, specialmente nelle applicazioni che richiedono ragionamento incarnato e comprensione di sequenze temporali.
Fatti principali
- I Modelli Visione-Linguaggio affrontano ostacoli nel ragionamento spaziotemporale
- L'allucinazione nel ragionamento multi-immagine causa cali di prestazioni tra query temporali in avanti e all'indietro
- Un nuovo dataset Chain-of-Thought scompone il ragionamento in passaggi spaziotemporali
- L'addestramento progressivo inizia con pre-addestramento supervisionato sul dataset CoT
- Il fine-tuning utilizza dati debolmente etichettati e scalabili per la generalizzazione
- L'approccio riduce il divario di prestazioni avanti-indietro da oltre il 70%
- La ricerca è documentata in arXiv:2604.10506v1
- La metodologia mira ad applicazioni di ragionamento incarnato
Entità
—