ARTFEED — Contemporary Art Intelligence

Input simbolici migliorano le prestazioni dei LLM nel ragionamento visivo astratto

ai-technology · 2026-04-25

Uno studio recente pubblicato su arXiv (2604.21346) esplora se i modelli visione-linguaggio (VLM) incontrano difficoltà nel ragionamento visivo astratto a causa di problemi di ragionamento o di rappresentazione. I ricercatori hanno utilizzato il benchmark Bongard-LOGO per valutare VLM end-to-end con immagini grezze rispetto a modelli linguistici di grandi dimensioni (LLM) che ricevevano input simbolici derivati da queste immagini. Lo studio ha introdotto l'approccio Componenziale-Grammaticale (C-G), trasformando Bongard-LOGO in una sfida di ragionamento simbolico attraverso programmi d'azione in stile LOGO o descrizioni strutturate. Gli LLM hanno raggiunto una precisione intorno al 95% sui problemi a forma libera, mentre una baseline visiva robusta ha ottenuto risultati vicini al caso con definizioni di compito equivalenti. Ulteriori indagini sui formati di input, i prompt concettuali espliciti e i minimi indizi visivi hanno evidenziato colli di bottiglia rappresentazionali.

Fatti principali

  • Lo studio confronta VLM su immagini grezze con LLM su input simbolici
  • Utilizza il benchmark sintetico Bongard-LOGO per l'apprendimento di concetti astratti
  • Il paradigma C-G riformula il benchmark come compito di ragionamento simbolico
  • Gli LLM raggiungono una precisione intorno al 95% sui problemi a forma libera
  • La baseline visiva rimane vicina al caso con definizioni corrispondenti
  • Ablazioni testano formato di input, prompt concettuali e indizi visivi
  • Pubblicato su arXiv con ID 2604.21346
  • La ricerca evidenzia colli di bottiglia rappresentazionali nei VLM

Entità

Istituzioni

  • arXiv

Fonti