ARTFEED — Contemporary Art Intelligence

OR-Space: Un Benchmark per Agenti di Ottimizzazione Industriale

ai-technology · 2026-05-28

Un nuovo benchmark chiamato OR-Space è stato sviluppato da ricercatori per valutare gli agenti basati su modelli linguistici di grandi dimensioni (LLM) lungo l'intero ciclo di vita dei compiti di ottimizzazione industriale. A differenza dei benchmark tradizionali che si limitano a tradurre dichiarazioni di problemi in modelli matematici, OR-Space riflette le complessità degli scenari reali, caratterizzandosi per spazi di lavoro persistenti con molteplici artefatti e cicli di vita di compiti a più fasi. Ogni istanza funge da spazio di lavoro eseguibile che include documenti aziendali, dati strutturati, artefatti di codice, output del risolutore e valutatori specifici del compito, distribuiti su file interconnessi. Il benchmark delinea tre modalità di compito: Build (creazione di modelli pronti per il risolutore a partire da artefatti diversi), Revise (aggiornamento di modelli esistenti) e Grounded Explanation (giustificazione delle decisioni del modello). Questa iniziativa colma il divario tra valutazioni accademiche e processi industriali reali, dove le sfide di ottimizzazione sono dinamiche e richiedono un continuo perfezionamento. La ricerca è disponibile su arXiv con l'identificatore 2605.28158.

Fatti principali

  • OR-Space è un benchmark per agenti di ottimizzazione industriale.
  • Valuta gli agenti LLM nella costruzione, revisione e spiegazione motivata dei modelli.
  • Ogni istanza è uno spazio di lavoro eseguibile con documenti aziendali, dati strutturati, artefatti di codice, output del risolutore e valutatori.
  • Tre modalità di compito: Build, Revise e Grounded Explanation.
  • I benchmark esistenti riducono la valutazione a una traduzione una tantum da dichiarazioni di problemi autonome.
  • OR-Space cattura spazi di lavoro persistenti con molteplici artefatti e cicli di vita di compiti a più fasi.
  • Pubblicato su arXiv con identificatore 2605.28158.
  • Il benchmark mira a colmare il divario tra valutazione accademica e flussi di lavoro industriali reali.

Entità

Istituzioni

  • arXiv

Fonti