Nuovo Benchmark Valuta i LLM nell'Ingegneria Petrolifera

ai-technology · 2026-05-28

È stato introdotto un nuovo benchmark chiamato PetroBench per valutare i modelli linguistici di grandi dimensioni (LLM) specificamente nel campo dell'ingegneria petrolifera. Questo benchmark è stato creato attraverso un approccio completo in tre fasi che includeva pre-elaborazione dei dati, filtraggio della qualità e validazione su più modelli, con revisioni di esperti per confermare la pertinenza al dominio. Presenta 1.200 domande che coprono l'ingegneria di produzione, di giacimento e di perforazione, presentate in formati come scelta multipla, vero/falso, definizioni di termini e risposte brevi. Otto LLM di spicco sono stati esaminati in un ambiente API standardizzato. I risultati suggeriscono che i modelli eccellono nelle domande soggettive rispetto a quelle oggettive, evidenziando carenze nell'identificazione di conoscenze fattuali. Le accuratezze più elevate registrate sono state del 65,3% per le domande a scelta multipla e del 74,3% per le domande vero/falso, con Gemini-3-Pro e Kimi-K2.5 tra quelli testati.

Fatti principali

PetroBench è un benchmark per LLM nell'ingegneria petrolifera.
Il benchmark include 1.200 domande in vari formati.
Copre l'ingegneria di produzione, di giacimento e di perforazione.
Sono stati valutati otto LLM mainstream.
La massima accuratezza per scelta multipla è stata del 65,3%.
La massima accuratezza per vero/falso è stata del 74,3%.
I modelli hanno performato meglio sulle domande soggettive rispetto a quelle oggettive.
Gemini-3-Pro e Kimi-K2.5 erano tra i modelli testati.

Entità

—

Fonti

arXiv cs.AI — 2026-05-28