ChaosBench-Logic v2: Benchmark di Ragionamento Logico per LLM su Sistemi Dinamici
ChaosBench-Logic v2 è stato introdotto come un nuovo standard per valutare il ragionamento logico nei grandi modelli linguistici (LLM) all'interno di sistemi dinamici. Questo benchmark comprende 40.886 domande su 165 sistemi, utilizzando 27 predicati logici del primo ordine e 78 archi assiomatici. Il protocollo CARE evidenzia problemi come il collasso a priori e le incongruenze in caso di parafrasi. Una valutazione di 14 modelli rivela che il ragionamento sulle transizioni di regime è quasi casuale (MCC=0,05), mentre la deduzione logica del primo ordine raggiunge un MCC di 0,52. I modelli proprietari performano bene nei compiti di cross-indicatore (+0,40) e coerenza, mentre il modello open-source Qwen 2.5-32B eccelle nella diagnostica degli indicatori (0,91 contro 0,45). In particolare, due modelli mostrano un MCC negativo sulle domande di biforcazione, suggerendo un'anticorrelazione sistematica.
Fatti principali
- ChaosBench-Logic v2 include 40.886 domande su 165 sistemi dinamici.
- Il benchmark utilizza 27 predicati FOL e 78 archi assiomatici.
- Il protocollo CARE evidenzia patologie come il collasso a priori e l'incoerenza sotto parafrasi.
- Sono stati valutati 14 modelli.
- Il ragionamento sulle transizioni di regime ha ottenuto prestazioni quasi casuali (MCC=0,05).
- La deduzione FOL con premesse date ha raggiunto un MCC=0,52.
- I modelli proprietari hanno mostrato un vantaggio nei compiti di cross-indicatore (+0,40) e coerenza.
- Qwen 2.5-32B ha dominato la diagnostica degli indicatori (0,91 contro 0,45).
Entità
Istituzioni
- arXiv