Nuovo Benchmark Valuta i LLM nell'Ingegneria Petrolifera
È stato introdotto un nuovo benchmark chiamato PetroBench per valutare i modelli linguistici di grandi dimensioni (LLM) specificamente nel campo dell'ingegneria petrolifera. Questo benchmark è stato creato attraverso un approccio completo in tre fasi che includeva pre-elaborazione dei dati, filtraggio della qualità e validazione su più modelli, con revisioni di esperti per confermare la pertinenza al dominio. Presenta 1.200 domande che coprono l'ingegneria di produzione, di giacimento e di perforazione, presentate in formati come scelta multipla, vero/falso, definizioni di termini e risposte brevi. Otto LLM di spicco sono stati esaminati in un ambiente API standardizzato. I risultati suggeriscono che i modelli eccellono nelle domande soggettive rispetto a quelle oggettive, evidenziando carenze nell'identificazione di conoscenze fattuali. Le accuratezze più elevate registrate sono state del 65,3% per le domande a scelta multipla e del 74,3% per le domande vero/falso, con Gemini-3-Pro e Kimi-K2.5 tra quelli testati.
Fatti principali
- PetroBench è un benchmark per LLM nell'ingegneria petrolifera.
- Il benchmark include 1.200 domande in vari formati.
- Copre l'ingegneria di produzione, di giacimento e di perforazione.
- Sono stati valutati otto LLM mainstream.
- La massima accuratezza per scelta multipla è stata del 65,3%.
- La massima accuratezza per vero/falso è stata del 74,3%.
- I modelli hanno performato meglio sulle domande soggettive rispetto a quelle oggettive.
- Gemini-3-Pro e Kimi-K2.5 erano tra i modelli testati.
Entità
—