ARTFEED — Contemporary Art Intelligence

Nuovo Benchmark Valuta i LLM nell'Ingegneria Petrolifera

ai-technology · 2026-05-28

È stato introdotto un nuovo benchmark chiamato PetroBench per valutare i modelli linguistici di grandi dimensioni (LLM) specificamente nel campo dell'ingegneria petrolifera. Questo benchmark è stato creato attraverso un approccio completo in tre fasi che includeva pre-elaborazione dei dati, filtraggio della qualità e validazione su più modelli, con revisioni di esperti per confermare la pertinenza al dominio. Presenta 1.200 domande che coprono l'ingegneria di produzione, di giacimento e di perforazione, presentate in formati come scelta multipla, vero/falso, definizioni di termini e risposte brevi. Otto LLM di spicco sono stati esaminati in un ambiente API standardizzato. I risultati suggeriscono che i modelli eccellono nelle domande soggettive rispetto a quelle oggettive, evidenziando carenze nell'identificazione di conoscenze fattuali. Le accuratezze più elevate registrate sono state del 65,3% per le domande a scelta multipla e del 74,3% per le domande vero/falso, con Gemini-3-Pro e Kimi-K2.5 tra quelli testati.

Fatti principali

  • PetroBench è un benchmark per LLM nell'ingegneria petrolifera.
  • Il benchmark include 1.200 domande in vari formati.
  • Copre l'ingegneria di produzione, di giacimento e di perforazione.
  • Sono stati valutati otto LLM mainstream.
  • La massima accuratezza per scelta multipla è stata del 65,3%.
  • La massima accuratezza per vero/falso è stata del 74,3%.
  • I modelli hanno performato meglio sulle domande soggettive rispetto a quelle oggettive.
  • Gemini-3-Pro e Kimi-K2.5 erano tra i modelli testati.

Entità

Fonti