LLM testati sulla replicazione di modelli ad agenti da specifiche ODD
Un'indagine di ricerca ha analizzato 17 modelli linguistici estesi (LLM) per determinare la loro competenza nell'esecuzione di modelli ad agenti basati su specifiche ODD standardizzate, utilizzando il modello predatore-preda PPHPC come benchmark. Il codice Python generato è stato valutato attraverso controlli di eseguibilità, confronti statistici con una baseline NetLogo e valutazioni di efficienza di runtime e manutenibilità. I risultati suggeriscono che, sebbene implementazioni comportamentalmente accurate siano raggiungibili, non sono garantite, e la mera eseguibilità non è sufficiente per applicazioni scientifiche. GPT-4.1 ha costantemente fornito implementazioni statisticamente valide ed efficienti, con Claude 3.7 Sonnet che ha mostrato prestazioni encomiabili.
Fatti principali
- 17 LLM contemporanei sono stati valutati sulla traduzione da ODD a codice
- Modello predatore-preda PPHPC utilizzato come riferimento completamente specificato
- Implementazioni Python generate confrontate con baseline NetLogo validata
- GPT-4.1 ha costantemente prodotto implementazioni statisticamente valide ed efficienti
- Anche Claude 3.7 Sonnet ha performato bene
- La sola eseguibilità è insufficiente per uso scientifico
- Implementazioni comportamentalmente fedeli sono raggiungibili ma non garantite
- Studio pubblicato su arXiv (2602.10140)
Entità
Istituzioni
- arXiv