ARTFEED — Contemporary Art Intelligence

GraphARC: un benchmark per testare l'IA sul ragionamento astratto basato su grafi

other · 2026-06-01

Un nuovo benchmark chiamato GraphARC è stato presentato dai ricercatori per valutare il ragionamento astratto su dati strutturati a grafo. A differenza dei precedenti benchmark limitati a griglie o testo, GraphARC estende l'approccio di apprendimento per trasformazione few-shot dell'Abstraction and Reasoning Corpus (ARC). Ogni compito consiste nel dedurre una regola di trasformazione da diverse coppie input-output di grafi e applicarla a un nuovo grafo di test, affrontando trasformazioni locali, globali e gerarchiche. GraphARC può generare istanze in varie famiglie e dimensioni di grafi, facilitando una valutazione approfondita della generalizzazione. I test su modelli linguistici avanzati indicano un divario tra comprensione ed esecuzione, poiché questi modelli possono identificare proprietà dei grafi ma faticano con compiti completi di trasformazione, specialmente all'aumentare della complessità. Il benchmark è descritto in un articolo disponibile su arXiv (2605.31031).

Fatti principali

  • GraphARC è un benchmark per il ragionamento astratto su dati strutturati a grafo.
  • Generalizza il paradigma di apprendimento per trasformazione few-shot dell'Abstraction and Reasoning Corpus (ARC).
  • Ogni compito richiede di inferire una regola di trasformazione da poche coppie input-output e applicarla a un nuovo grafo di test.
  • Le trasformazioni coprono cambiamenti locali, globali e gerarchici dei grafi.
  • Le istanze di GraphARC possono essere generate su larga scala in diverse famiglie e dimensioni di grafi.
  • I modelli linguistici all'avanguardia mostrano un divario tra comprensione ed esecuzione su GraphARC.
  • I modelli possono rispondere a domande sulle proprietà dei grafi ma spesso falliscono nel risolvere compiti completi di trasformazione.
  • Le prestazioni peggiorano ulteriormente con l'aumento della complessità.

Entità

Istituzioni

  • arXiv

Fonti