Input simbolici migliorano le prestazioni dei LLM nel ragionamento visivo astratto

ai-technology · 2026-04-25

Uno studio recente pubblicato su arXiv (2604.21346) esplora se i modelli visione-linguaggio (VLM) incontrano difficoltà nel ragionamento visivo astratto a causa di problemi di ragionamento o di rappresentazione. I ricercatori hanno utilizzato il benchmark Bongard-LOGO per valutare VLM end-to-end con immagini grezze rispetto a modelli linguistici di grandi dimensioni (LLM) che ricevevano input simbolici derivati da queste immagini. Lo studio ha introdotto l'approccio Componenziale-Grammaticale (C-G), trasformando Bongard-LOGO in una sfida di ragionamento simbolico attraverso programmi d'azione in stile LOGO o descrizioni strutturate. Gli LLM hanno raggiunto una precisione intorno al 95% sui problemi a forma libera, mentre una baseline visiva robusta ha ottenuto risultati vicini al caso con definizioni di compito equivalenti. Ulteriori indagini sui formati di input, i prompt concettuali espliciti e i minimi indizi visivi hanno evidenziato colli di bottiglia rappresentazionali.

Fatti principali

Lo studio confronta VLM su immagini grezze con LLM su input simbolici
Utilizza il benchmark sintetico Bongard-LOGO per l'apprendimento di concetti astratti
Il paradigma C-G riformula il benchmark come compito di ragionamento simbolico
Gli LLM raggiungono una precisione intorno al 95% sui problemi a forma libera
La baseline visiva rimane vicina al caso con definizioni corrispondenti
Ablazioni testano formato di input, prompt concettuali e indizi visivi
Pubblicato su arXiv con ID 2604.21346
La ricerca evidenzia colli di bottiglia rappresentazionali nei VLM

Input simbolici migliorano le prestazioni dei LLM nel ragionamento visivo astratto

Fatti principali

Entità

Istituzioni

Fonti