CreativityBench testa i LLM sul riutilizzo creativo degli strumenti basato sulle affordance

ai-technology · 2026-05-07

CreativityBench, un nuovo benchmark, valuta i grandi modelli linguistici in base alla loro capacità di utilizzare strumenti considerando attributi e affordance anziché applicazioni tradizionali. Presenta un'ampia base di conoscenza delle affordance composta da 4.000 entità e oltre 150.000 annotazioni che collegano oggetti, componenti, caratteristiche e usi pratici. Questa base genera 14.000 compiti contestualizzati che richiedono soluzioni non immediatamente ovvie ma fisicamente realizzabili entro vincoli specifici. Le valutazioni condotte su 10 LLM leader, sia open-source che chiusi, rivelano che, sebbene questi modelli spesso identifichino uno strumento plausibile, falliscono frequentemente nel ragionamento creativo. I risultati sono documentati su arXiv con ID 2605.02910.

Fatti principali

CreativityBench valuta l'uso creativo degli strumenti nei LLM.
Il benchmark utilizza una base di conoscenza con 4.000 entità e oltre 150.000 annotazioni di affordance.
14.000 compiti contestualizzati richiedono soluzioni non ovvie ma fisicamente plausibili.
Sono stati valutati 10 LLM all'avanguardia.
I modelli possono selezionare strumenti plausibili ma hanno difficoltà con il ragionamento creativo.
Pubblicato su arXiv con ID 2605.02910.
Focus sul ragionamento basato sulle affordance anziché sull'uso canonico.
Compiti generati sotto vincoli per testare la risoluzione creativa dei problemi.

CreativityBench testa i LLM sul riutilizzo creativo degli strumenti basato sulle affordance

Fatti principali

Entità

Istituzioni

Fonti