I VLM falliscono nel seguire percorsi visivi a causa della competizione locale con distrattori

ai-technology · 2026-05-18

Una recente indagine pubblicata su arXiv (2605.15672) indica che i modelli avanzati di visione-linguaggio (VLM) hanno difficoltà nel tracciamento di linee, un compito visivo di base che consiste nel seguire un percorso designato attraverso successive continuazioni locali. I ricercatori hanno creato compiti di tracciamento controllati per ridurre al minimo la confusione semantica e topologica; tuttavia, anche i VLM con le migliori prestazioni spesso deviano dal percorso previsto, optando per alternative vicine che appaiono simili. Analisi interne e interventi comportamentali suggeriscono che questi errori derivano dalla competizione locale con distrattori vicini. Mentre l'aumento delle dimensioni del modello fornisce miglioramenti marginali, il ragionamento aiuta in parte ma non risolve completamente il problema. Questi risultati mettono in dubbio la presunta robustezza dei VLM in operazioni visive fondamentali.

Fatti principali

I modelli di visione-linguaggio (VLM) falliscono nei compiti di tracciamento di linee.
I fallimenti si verificano quando distrattori vicini appaiono simili al percorso target.
Il semplice aumento delle dimensioni del modello fornisce solo miglioramenti limitati.
Il ragionamento compensa parzialmente il collo di bottiglia del tracciamento.
Lo studio è stato pubblicato su arXiv con ID 2605.15672.
Compiti controllati hanno ridotto l'ambiguità semantica e topologica.
Analisi interne confermano la competizione locale come causa del fallimento.
I modelli all'avanguardia sono stati testati e trovati carenti.

I VLM falliscono nel seguire percorsi visivi a causa della competizione locale con distrattori

Fatti principali

Entità

Istituzioni

Fonti