DecompSR: Dataset Introdotto per Analizzare il Ragionamento Spaziale Composizionale nei Modelli Linguistici di Grande Dimensione

ai-technology · 2026-04-15

Un nuovo dataset di benchmark chiamato DecompSR è stato introdotto per analizzare le capacità di ragionamento spaziale composizionale nei sistemi di intelligenza artificiale. Questo dataset contiene oltre 5 milioni di punti dati e include un framework di generazione che consente ai ricercatori di variare indipendentemente molteplici aspetti della composizionalità. Questi aspetti includono la produttività (che misura la profondità del ragionamento), la sostituibilità (che copre la variabilità delle entità e linguistica), la sovrageneralizzazione (che esamina l'ordine degli input e i distrattori) e la sistematicità (che coinvolge elementi linguistici nuovi). Il dataset è stato costruito proceduralmente per garantire che sia corretto per costruzione, con questa correttezza verificata indipendentemente utilizzando un risolutore simbolico. Il benchmarking completo su numerosi Modelli Linguistici di Grande Dimensione (LLM) ha rivelato che questi modelli hanno notevoli difficoltà con la generalizzazione produttiva e sistematica nei compiti di ragionamento spaziale. Tuttavia, gli LLM hanno dimostrato una maggiore robustezza quando si tratta di variabilità linguistica. DecompSR fornisce ai ricercatori un framework rigoroso e provabilmente corretto per valutare come i sistemi di IA gestiscono complesse sfide di ragionamento spaziale che richiedono pensiero composizionale.

Fatti principali

DecompSR è un dataset di benchmark per analizzare il ragionamento spaziale composizionale
Il dataset contiene oltre 5 milioni di punti dati
Include un framework di generazione per variare aspetti della composizionalità
Quattro aspetti possono essere variati: produttività, sostituibilità, sovrageneralizzazione e sistematicità
Il dataset è costruito proceduralmente per essere corretto per costruzione
La correttezza è verificata utilizzando un risolutore simbolico
Gli LLM hanno difficoltà con la generalizzazione produttiva e sistematica nel ragionamento spaziale
Gli LLM mostrano maggiore robustezza alla variabilità linguistica

Entità

—

Fonti

arXiv cs.AI — 2026-04-15