ARTFEED — Contemporary Art Intelligence

Nuovo benchmark testa il ragionamento degli LLM tramite interazione black-box

ai-technology · 2026-05-07

I ricercatori hanno introdotto il benchmark Oracle per valutare il ragionamento dei grandi modelli linguistici attraverso l'interazione in ambienti black-box, dove i modelli devono inferire funzioni nascoste esplorando coppie input-output. Il benchmark include 96 ambienti suddivisi in 6 tipi di compiti. Il modello o3 di OpenAI si è classificato primo in 5 dei 6 compiti tra i 19 LLM testati.

Fatti principali

  • Il benchmark Oracle comprende 6 tipi di compiti black-box con 96 ambienti
  • Sono stati valutati 19 moderni LLM
  • Il modello o3 di OpenAI si è classificato primo in 5 dei 6 compiti
  • L'ambiente black-box è definito da una funzione nascosta che mappa input a output
  • Gli LLM devono scoprire la funzione nascosta attraverso interazione e ragionamento

Entità

Istituzioni

  • OpenAI
  • arXiv

Fonti