Input simbolici migliorano le prestazioni dei LLM nel ragionamento visivo astratto
Uno studio recente pubblicato su arXiv (2604.21346) esplora se i modelli visione-linguaggio (VLM) incontrano difficoltà nel ragionamento visivo astratto a causa di problemi di ragionamento o di rappresentazione. I ricercatori hanno utilizzato il benchmark Bongard-LOGO per valutare VLM end-to-end con immagini grezze rispetto a modelli linguistici di grandi dimensioni (LLM) che ricevevano input simbolici derivati da queste immagini. Lo studio ha introdotto l'approccio Componenziale-Grammaticale (C-G), trasformando Bongard-LOGO in una sfida di ragionamento simbolico attraverso programmi d'azione in stile LOGO o descrizioni strutturate. Gli LLM hanno raggiunto una precisione intorno al 95% sui problemi a forma libera, mentre una baseline visiva robusta ha ottenuto risultati vicini al caso con definizioni di compito equivalenti. Ulteriori indagini sui formati di input, i prompt concettuali espliciti e i minimi indizi visivi hanno evidenziato colli di bottiglia rappresentazionali.
Fatti principali
- Lo studio confronta VLM su immagini grezze con LLM su input simbolici
- Utilizza il benchmark sintetico Bongard-LOGO per l'apprendimento di concetti astratti
- Il paradigma C-G riformula il benchmark come compito di ragionamento simbolico
- Gli LLM raggiungono una precisione intorno al 95% sui problemi a forma libera
- La baseline visiva rimane vicina al caso con definizioni corrispondenti
- Ablazioni testano formato di input, prompt concettuali e indizi visivi
- Pubblicato su arXiv con ID 2604.21346
- La ricerca evidenzia colli di bottiglia rappresentazionali nei VLM
Entità
Istituzioni
- arXiv