Nuovo benchmark testa il ragionamento degli LLM tramite interazione black-box
I ricercatori hanno introdotto il benchmark Oracle per valutare il ragionamento dei grandi modelli linguistici attraverso l'interazione in ambienti black-box, dove i modelli devono inferire funzioni nascoste esplorando coppie input-output. Il benchmark include 96 ambienti suddivisi in 6 tipi di compiti. Il modello o3 di OpenAI si è classificato primo in 5 dei 6 compiti tra i 19 LLM testati.
Fatti principali
- Il benchmark Oracle comprende 6 tipi di compiti black-box con 96 ambienti
- Sono stati valutati 19 moderni LLM
- Il modello o3 di OpenAI si è classificato primo in 5 dei 6 compiti
- L'ambiente black-box è definito da una funzione nascosta che mappa input a output
- Gli LLM devono scoprire la funzione nascosta attraverso interazione e ragionamento
Entità
Istituzioni
- OpenAI
- arXiv