OR-Space: Un Benchmark per Agenti di Ottimizzazione Industriale
Un nuovo benchmark chiamato OR-Space è stato sviluppato da ricercatori per valutare gli agenti basati su modelli linguistici di grandi dimensioni (LLM) lungo l'intero ciclo di vita dei compiti di ottimizzazione industriale. A differenza dei benchmark tradizionali che si limitano a tradurre dichiarazioni di problemi in modelli matematici, OR-Space riflette le complessità degli scenari reali, caratterizzandosi per spazi di lavoro persistenti con molteplici artefatti e cicli di vita di compiti a più fasi. Ogni istanza funge da spazio di lavoro eseguibile che include documenti aziendali, dati strutturati, artefatti di codice, output del risolutore e valutatori specifici del compito, distribuiti su file interconnessi. Il benchmark delinea tre modalità di compito: Build (creazione di modelli pronti per il risolutore a partire da artefatti diversi), Revise (aggiornamento di modelli esistenti) e Grounded Explanation (giustificazione delle decisioni del modello). Questa iniziativa colma il divario tra valutazioni accademiche e processi industriali reali, dove le sfide di ottimizzazione sono dinamiche e richiedono un continuo perfezionamento. La ricerca è disponibile su arXiv con l'identificatore 2605.28158.
Fatti principali
- OR-Space è un benchmark per agenti di ottimizzazione industriale.
- Valuta gli agenti LLM nella costruzione, revisione e spiegazione motivata dei modelli.
- Ogni istanza è uno spazio di lavoro eseguibile con documenti aziendali, dati strutturati, artefatti di codice, output del risolutore e valutatori.
- Tre modalità di compito: Build, Revise e Grounded Explanation.
- I benchmark esistenti riducono la valutazione a una traduzione una tantum da dichiarazioni di problemi autonome.
- OR-Space cattura spazi di lavoro persistenti con molteplici artefatti e cicli di vita di compiti a più fasi.
- Pubblicato su arXiv con identificatore 2605.28158.
- Il benchmark mira a colmare il divario tra valutazione accademica e flussi di lavoro industriali reali.
Entità
Istituzioni
- arXiv