KnotBench: Un Benchmark Difficile per Modelli Visione-Linguaggio che Utilizza Diagrammi di Nodi

ai-technology · 2026-05-12

KnotBench, un nuovo standard, valuta i modelli visione-linguaggio nel ragionamento relativo ai nodi diagrammatici. Utilizza un dataset composto da 858.318 immagini derivate da 1.951 prototipi di nodi primi, con numeri di incrocio che vanno da 3 a 19, e impiega un protocollo verificato rispetto alla firma canonica dei nodi di Regina. La valutazione include 14 compiti suddivisi in quattro categorie: giudizio di equivalenza, previsione di mosse, identificazione e grounding cross-modale. Una divisione tra immagine e simbolo evidenzia le carenze nel divario percezione-operazione. Sono stati valutati Claude Opus 4.7 e GPT-5, sia con che senza ragionamento, con un limite di 64K token di output. Su 56 combinazioni (compito, modello), 15 sono risultate pari o inferiori a una linea di base casuale, con 8 dei 14 compiti che hanno raggiunto un punteggio massimo inferiore a 1,5 volte il casuale. Nessun modello ha ottenuto una stringa perfettamente accurata nella trascrizione da diagramma a simbolo, e la decodifica permissiva di Regina è riuscita a recuperare il nodo in 0-4 casi su 100. L'utilizzo della modalità di ragionamento ha migliorato l'accuratezza complessiva di 1,65 punti percentuali.

Fatti principali

KnotBench utilizza 858.318 immagini da 1.951 prototipi di nodi primi
I numeri di incrocio vanno da 3 a 19
14 compiti in quattro famiglie: giudizio di equivalenza, previsione di mosse, identificazione, grounding cross-modale
Claude Opus 4.7 e GPT-5 testati con e senza pensiero
Budget di 64K token di output corrisposto su entrambi i fornitori
15 dei 56 casi (compito, modello) pari o inferiori alla linea di base casuale
8 dei 14 compiti hanno il punteggio migliore sotto 1,5 volte il casuale
Nessun modello produce una trascrizione strettamente corretta da diagramma a simbolo
La decodifica permissiva di Regina recupera il nodo in 0-4 casi su 100
Il ragionamento con modalità pensiero aumenta l'accuratezza di 1,65 punti percentuali

KnotBench: Un Benchmark Difficile per Modelli Visione-Linguaggio che Utilizza Diagrammi di Nodi

Fatti principali

Entità

Istituzioni

Fonti