QSTRBench: Nuovo benchmark testa i LLM sul ragionamento spaziale e temporale

ai-technology · 2026-05-20

I ricercatori hanno creato un nuovo benchmark chiamato QSTRBench per valutare i grandi modelli linguistici (LLM) specificamente per il ragionamento spaziale e temporale qualitativo (QSTR). Questo benchmark include domande incentrate sul ragionamento compositivo, le relazioni converse e i vicinati concettuali. Impiega diversi calcoli, come l'Algebra dei Punti (PA), l'Algebra degli Intervalli di Allen e vari Calcoli di Connessione Regionale (RCC-5, RCC-8, RCC-22), insieme ad altri come il modello a nove intersezioni e il calcolo delle direzioni cardinali. Un'aggiunta notevole è il vicinato concettuale RCC-22. Il benchmark modifica anche il modo in cui le domande sono formattate, utilizzando diverse notazioni e descrizioni. I test sui modelli principali mostrano che, sebbene superino il caso casuale, nessuno raggiunge la piena accuratezza, con PA che risulta il più facile e RCC-22 il più impegnativo.

Fatti principali

QSTRBench valuta gli LLM sul ragionamento spaziale e temporale qualitativo.
Include i calcoli: PA, Algebra degli Intervalli di Allen, INDU, RCC-5, RCC-8, RCC-22, modello a nove intersezioni, calcolo delle direzioni cardinali, STAR.
Il vicinato concettuale RCC-22 è pubblicato per la prima volta.
La presentazione delle domande varia: prefisso/infisso, parole/simboli/termini nonce, descrizioni schematiche.
Tutti i modelli testati superano il caso casuale ma nessuno raggiunge l'accuratezza perfetta.
Le prestazioni variano nettamente in base al calcolo; PA è il più facile, RCC-22 il più difficile.

Entità

—

Fonti

arXiv cs.AI — 2026-05-19