OPT-BENCH: Framework RLVR Quality-Aware per Ottimizzazione NP-Hard negli LLM

ai-technology · 2026-05-12

Un recente preprint su arXiv presenta OPT-BENCH, il primo framework completo progettato per l'addestramento e la valutazione di Large Language Models (LLM) che affrontano sfide di ottimizzazione NP-hard attraverso Reinforcement Learning con Ricompense Verificabili (RLVR) sensibile alla qualità. Questo framework colma una lacuna nei benchmark attuali, che si concentrano esclusivamente sulla correttezza piuttosto che sull'ottimalità, ovvero la capacità di identificare le migliori soluzioni entro vincoli. OPT-BENCH comprende tre elementi: un setup di addestramento scalabile con generatori di istanze, verificatori di qualità e baseline ottimali per dieci compiti; un benchmark di 1.000 istanze che misura la fattibilità tramite il Tasso di Successo e la qualità tramite il Rapporto di Qualità; e ricompense sensibili alla qualità che facilitano un miglioramento continuo oltre la mera correttezza binaria. L'addestramento ha utilizzato Qwen2.5-7B-Instruct-1M con 15.000 esempi. L'articolo è disponibile su arXiv con ID 2605.08905.

Fatti principali

OPT-BENCH è il primo framework per addestrare e valutare LLM su problemi di ottimizzazione NP-hard con RLVR sensibile alla qualità.
I benchmark esistenti valutano solo la correttezza, non l'ottimalità.
Il framework include generatori di istanze, verificatori di qualità e baseline ottimali per 10 compiti.
Il benchmark comprende 1.000 istanze.
Il Tasso di Successo misura la fattibilità; il Rapporto di Qualità misura la qualità.
Le ricompense sensibili alla qualità consentono un miglioramento continuo oltre la correttezza binaria.
L'addestramento ha utilizzato Qwen2.5-7B-Instruct-1M con 15.000 esempi.
L'articolo è pubblicato su arXiv con ID 2605.08905.

OPT-BENCH: Framework RLVR Quality-Aware per Ottimizzazione NP-Hard negli LLM

Fatti principali

Entità

Istituzioni

Fonti