Benchmark OPT-BENCH valuta l'auto-ottimizzazione degli LLM in ampi spazi di ricerca
Un nuovo benchmark chiamato OPT-BENCH è stato lanciato dai ricercatori per valutare le capacità di auto-miglioramento dei grandi modelli linguistici (LLM) all'interno di ampi spazi di ricerca. Questo benchmark combina 20 compiti di apprendimento automatico con 10 problemi tradizionali NP-hard per determinare se gli agenti possono evolversi attraverso l'auto-riflessione intrinseca anziché limitarsi ad applicare strumenti. I risultati, disponibili su arXiv (2605.08904), introducono anche OPT-Agent, un sistema incentrato sull'auto-ottimizzazione iterativa. Questo studio affronta la questione meno esplorata se gli LLM possiedano capacità cognitive essenziali – come percezione, ragionamento e memoria – che consentano loro di migliorare continuamente le soluzioni in risposta a feedback ambientali mutevoli, in modo simile alla risoluzione umana di problemi in contesti sconosciuti.
Fatti principali
- OPT-BENCH è un benchmark per valutare l'auto-miglioramento negli LLM.
- Combina 20 compiti di apprendimento automatico con 10 problemi NP-hard.
- Il benchmark testa l'adattamento attraverso l'auto-riflessione intrinseca.
- OPT-Agent è proposto come sistema per l'auto-ottimizzazione iterativa.
- La ricerca è pubblicata su arXiv con ID 2605.08904.
- Esplora se gli LLM possono perfezionare le soluzioni da feedback dinamici.
- Il lavoro si concentra su facoltà cognitive come percezione, ragionamento e memoria.
- Il successo umano in ambienti nuovi si basa sull'applicazione di facoltà intrinseche.
Entità
Istituzioni
- arXiv