PuzzleWorld Benchmark Sfida i Modelli di IA con 667 Problemi Aperti di Puzzlehunt
Un nuovo benchmark denominato PuzzleWorld è stato lanciato per valutare i sistemi di intelligenza artificiale su sfide di ragionamento complesse e aperte. È composto da 667 domande in stile puzzlehunt, caratterizzate da enunciati ambigui che richiedono l'identificazione di schemi sottostanti da dati multimodali. Ciò differisce dai tradizionali benchmark di ragionamento che presentano compiti con linee guida chiare e contesti limitati. Ogni puzzle di PuzzleWorld include una risposta conclusiva, percorsi di ragionamento completi ed etichette di abilità cognitive, facilitando sia la valutazione complessiva che quella diagnostica dettagliata. L'obiettivo è valutare il ragionamento passo-passo, creativo e multimodale, riflettendo scenari reali come l'esplorazione scientifica e la risoluzione investigativa di problemi. Nonostante i progressi nei modelli fondazionali, la loro efficacia in questi compiti aperti rimane in gran parte inesaminata, con la maggior parte dei modelli leader che mostra solo risultati modesti. Il benchmark è stato rivelato sul server di preprint arXiv con l'identificatore arXiv:2506.06211v2, classificato come replace-cross.
Fatti principali
- PuzzleWorld è un nuovo benchmark per valutare il ragionamento dell'IA
- Contiene 667 problemi in stile puzzlehunt
- I puzzlehunt mancano di definizioni chiare dei problemi e richiedono la scoperta di strutture
- Il benchmark valuta il ragionamento passo-passo, aperto e creativo multimodale
- Ogni puzzle è annotato con una soluzione, tracce di ragionamento ed etichette di abilità
- Si contrappone ai benchmark convenzionali con istruzioni chiare
- Il benchmark riflette domini del mondo reale come la scoperta scientifica
- La maggior parte dei modelli di IA all'avanguardia ottiene un successo limitato su di esso
Entità
Istituzioni
- arXiv