Nuovo benchmark testa il ragionamento degli LLM tramite interazione black-box

ai-technology · 2026-05-07

I ricercatori hanno introdotto il benchmark Oracle per valutare il ragionamento dei grandi modelli linguistici attraverso l'interazione in ambienti black-box, dove i modelli devono inferire funzioni nascoste esplorando coppie input-output. Il benchmark include 96 ambienti suddivisi in 6 tipi di compiti. Il modello o3 di OpenAI si è classificato primo in 5 dei 6 compiti tra i 19 LLM testati.

Fatti principali

Il benchmark Oracle comprende 6 tipi di compiti black-box con 96 ambienti
Sono stati valutati 19 moderni LLM
Il modello o3 di OpenAI si è classificato primo in 5 dei 6 compiti
L'ambiente black-box è definito da una funzione nascosta che mappa input a output
Gli LLM devono scoprire la funzione nascosta attraverso interazione e ragionamento

Nuovo benchmark testa il ragionamento degli LLM tramite interazione black-box

Fatti principali

Entità

Istituzioni

Fonti