Modelli di IA Valutati su Compiti di Dinamica dei Sistemi: Prestazioni Cloud vs Local sui Diagrammi a Ciclo Causale
Un nuovo articolo di ricerca valuta sistematicamente i grandi modelli linguistici per l'assistenza AI nella Dinamica dei Sistemi, confrontando le API cloud proprietarie con i modelli open-source ospitati localmente. Lo studio introduce due benchmark: la CLD Leaderboard con 53 test per l'estrazione strutturata di diagrammi a ciclo causale, e la Discussion Leaderboard per la discussione interattiva con il modello, la spiegazione del feedback e il coaching nella costruzione del modello. Nei compiti di estrazione CLD, i modelli cloud hanno ottenuto tassi di successo complessivi tra il 77% e l'89%. Il miglior modello locale, Kimi K2.5 GGUF Q3 utilizzando un motore zero-shot, ha raggiunto il 77% di accuratezza, eguagliando le prestazioni dei modelli cloud di fascia media. Per i compiti di Discussione, i modelli locali hanno mostrato risultati variabili: hanno ottenuto il 50-100% sui passi di costruzione del modello e il 47-75% sulla spiegazione del feedback, ma solo lo 0-50% sulla correzione degli errori. L'articolo identifica che le prestazioni nella correzione degli errori soffrono a causa di prompt a contesto lungo che espongono le limitazioni di memoria nelle implementazioni locali. Un contributo chiave è l'analisi sistematica degli effetti del tipo di modello sulle prestazioni attraverso diverse categorie di compiti. La ricerca è stata pubblicata su arXiv con identificatore 2604.18566v2.
Fatti principali
- Valutazione sistematica dei grandi modelli linguistici per l'assistenza AI nella Dinamica dei Sistemi
- Confronto tra API cloud proprietarie e modelli open-source ospitati localmente
- Due benchmark: CLD Leaderboard (53 test) e Discussion Leaderboard
- I modelli cloud hanno ottenuto tassi di successo del 77-89% sull'estrazione CLD
- Il miglior modello locale (Kimi K2.5 GGUF Q3) ha raggiunto il 77% sull'estrazione CLD
- I modelli locali hanno ottenuto il 50-100% sui passi di costruzione del modello nei compiti di Discussione
- I modelli locali hanno ottenuto lo 0-50% sulla correzione degli errori a causa di limitazioni di memoria
- Ricerca pubblicata su arXiv con identificatore 2604.18566v2
Entità
Istituzioni
- arXiv