ARTFEED — Contemporary Art Intelligence

CreativityBench testa i LLM sul riutilizzo creativo degli strumenti basato sulle affordance

ai-technology · 2026-05-07

CreativityBench, un nuovo benchmark, valuta i grandi modelli linguistici in base alla loro capacità di utilizzare strumenti considerando attributi e affordance anziché applicazioni tradizionali. Presenta un'ampia base di conoscenza delle affordance composta da 4.000 entità e oltre 150.000 annotazioni che collegano oggetti, componenti, caratteristiche e usi pratici. Questa base genera 14.000 compiti contestualizzati che richiedono soluzioni non immediatamente ovvie ma fisicamente realizzabili entro vincoli specifici. Le valutazioni condotte su 10 LLM leader, sia open-source che chiusi, rivelano che, sebbene questi modelli spesso identifichino uno strumento plausibile, falliscono frequentemente nel ragionamento creativo. I risultati sono documentati su arXiv con ID 2605.02910.

Fatti principali

  • CreativityBench valuta l'uso creativo degli strumenti nei LLM.
  • Il benchmark utilizza una base di conoscenza con 4.000 entità e oltre 150.000 annotazioni di affordance.
  • 14.000 compiti contestualizzati richiedono soluzioni non ovvie ma fisicamente plausibili.
  • Sono stati valutati 10 LLM all'avanguardia.
  • I modelli possono selezionare strumenti plausibili ma hanno difficoltà con il ragionamento creativo.
  • Pubblicato su arXiv con ID 2605.02910.
  • Focus sul ragionamento basato sulle affordance anziché sull'uso canonico.
  • Compiti generati sotto vincoli per testare la risoluzione creativa dei problemi.

Entità

Istituzioni

  • arXiv

Fonti