KnotBench: Un Benchmark Difficile per Modelli Visione-Linguaggio che Utilizza Diagrammi di Nodi
KnotBench, un nuovo standard, valuta i modelli visione-linguaggio nel ragionamento relativo ai nodi diagrammatici. Utilizza un dataset composto da 858.318 immagini derivate da 1.951 prototipi di nodi primi, con numeri di incrocio che vanno da 3 a 19, e impiega un protocollo verificato rispetto alla firma canonica dei nodi di Regina. La valutazione include 14 compiti suddivisi in quattro categorie: giudizio di equivalenza, previsione di mosse, identificazione e grounding cross-modale. Una divisione tra immagine e simbolo evidenzia le carenze nel divario percezione-operazione. Sono stati valutati Claude Opus 4.7 e GPT-5, sia con che senza ragionamento, con un limite di 64K token di output. Su 56 combinazioni (compito, modello), 15 sono risultate pari o inferiori a una linea di base casuale, con 8 dei 14 compiti che hanno raggiunto un punteggio massimo inferiore a 1,5 volte il casuale. Nessun modello ha ottenuto una stringa perfettamente accurata nella trascrizione da diagramma a simbolo, e la decodifica permissiva di Regina è riuscita a recuperare il nodo in 0-4 casi su 100. L'utilizzo della modalità di ragionamento ha migliorato l'accuratezza complessiva di 1,65 punti percentuali.
Fatti principali
- KnotBench utilizza 858.318 immagini da 1.951 prototipi di nodi primi
- I numeri di incrocio vanno da 3 a 19
- 14 compiti in quattro famiglie: giudizio di equivalenza, previsione di mosse, identificazione, grounding cross-modale
- Claude Opus 4.7 e GPT-5 testati con e senza pensiero
- Budget di 64K token di output corrisposto su entrambi i fornitori
- 15 dei 56 casi (compito, modello) pari o inferiori alla linea di base casuale
- 8 dei 14 compiti hanno il punteggio migliore sotto 1,5 volte il casuale
- Nessun modello produce una trascrizione strettamente corretta da diagramma a simbolo
- La decodifica permissiva di Regina recupera il nodo in 0-4 casi su 100
- Il ragionamento con modalità pensiero aumenta l'accuratezza di 1,65 punti percentuali
Entità
Istituzioni
- arXiv
- Regina