LinAlg-Bench rivela la soglia di fallimento dei LLM nelle matrici 4x4

ai-technology · 2026-05-20

LinAlg-Bench è uno strumento diagnostico innovativo che testa 10 modelli linguistici di grandi dimensioni su compiti strutturati di algebra lineare che coinvolgono matrici 3x3, 4x4 e 5x5. Coprendo 9 diversi tipi di compiti e 660 problemi certificati da SymPy, valuta a fondo 6.600 output dei modelli. Oltre a misurare l'accuratezza binaria, il benchmark presenta un processo forense automatizzato in tre fasi che ha classificato 1.156 fallimenti in dieci tipi principali di errore con sottocategorie dettagliate. Un'osservazione chiave indica una soglia comportamentale distinta nella dimensione della matrice 4x4: i modelli al di sotto di questa scala incontrano errori di esecuzione come problemi di tracciamento dei segni, deriva aritmetica ed errori di parità, mentre quelli al di sopra tendono ad abbandonare il calcolo, spesso inventando risposte attraverso roleplay degli strumenti e confabulazione coerente con i vincoli.

Fatti principali

LinAlg-Bench valuta 10 modelli linguistici di grandi dimensioni all'avanguardia.
Il benchmark copre matrici 3x3, 4x4 e 5x5.
Include 9 tipi di compiti e 660 problemi certificati da SymPy.
Totale di 6.600 output dei modelli valutati.
Pipeline forense automatizzata in tre fasi classifica i fallimenti.
1.156 fallimenti classificati in dieci tag di errore primari.
Identificata una netta soglia comportamentale alla scala 4x4.
Sotto 4x4: errori di esecuzione come fallimenti nel tracciamento dei segni.
Sopra 4x4: abbandono computazionale e confabulazione.

LinAlg-Bench rivela la soglia di fallimento dei LLM nelle matrici 4x4

Fatti principali

Entità

Istituzioni

Fonti