FrontierOR: un benchmark per testare i LLM sull'ottimizzazione su larga scala

publication · 2026-05-26

FrontierOR è stato lanciato da ricercatori come benchmark per valutare la capacità dei grandi modelli linguistici (LLM) di progettare algoritmi efficienti per complesse sfide di ottimizzazione su larga scala. Questo benchmark comprende 180 task tratti da pubblicazioni leader nel campo della ricerca operativa, ciascuno accompagnato da istanze standardizzate e da un quadro di valutazione nascosto e convalidato da esperti. Sette LLM, inclusi modelli all'avanguardia, economici e open-source, sono stati testati in scenari one-shot e di evoluzione al momento del test. I risultati indicano che gli attuali LLM incontrano difficoltà nella progettazione di algoritmi scalabili, spesso con prestazioni inferiori rispetto ai metodi diretti di formulazione e risoluzione. FrontierOR mira a migliorare le prestazioni degli LLM nella ricerca operativa enfatizzando lo sfruttamento delle strutture dei problemi e la scalabilità, affrontando le carenze dei benchmark esistenti che si concentrano su esempi più piccoli o semplificati.

Fatti principali

FrontierOR è tra i primi benchmark a valutare sistematicamente la progettazione di algoritmi efficienti basati su LLM per problemi di ottimizzazione su larga scala realistici.
Il benchmark include 180 task derivati da articoli metodologicamente diversi pubblicati nelle principali sedi di ricerca operativa.
Ogni task ha istanze standardizzate e una suite di valutazione nascosta e verificata da esperti.
Sono stati valutati sette LLM, che spaziano tra modelli all'avanguardia, economici e open-source.
La valutazione è stata condotta sia in contesti one-shot che di evoluzione al momento del test.
I risultati rivelano che gli attuali LLM faticano nella progettazione di algoritmi scalabili.
I benchmark esistenti sono limitati a esempi piccoli o semplificati, ben al di sotto della scala e complessità del mondo reale.
Il lavoro è pubblicato su arXiv con ID 2605.25246.

FrontierOR: un benchmark per testare i LLM sull'ottimizzazione su larga scala

Fatti principali

Entità

Istituzioni

Fonti