ARTFEED — Contemporary Art Intelligence

Il framework AInstein valuta i LLM su problemi di ricerca in AI

ai-technology · 2026-04-30

Un nuovo framework chiamato AInstein valuta la capacità dei grandi modelli linguistici di affrontare sfide di ricerca in AI basandosi esclusivamente sulla conoscenza parametrica, senza ricorrere a fine-tuning, recupero o risorse esterne. Questa indagine, pubblicata su arXiv, presenta una validazione cieca con 20 esperti del settore che valutano problemi di ICLR 2026, estendendosi successivamente a 1.214 articoli di ICLR 2025 tramite un approccio LLM-as-a-judge. Le prestazioni sono valutate utilizzando due criteri: Tasso di Successo (la soluzione risolve il problema?) e Riscoperta (corrisponde al metodo pubblicato?). Mentre i LLM raggiungono un successo in oltre il 70% dei casi, replicano la soluzione pubblicata meno del 19% delle volte, dimostrando reali capacità di problem-solving. Tuttavia, faticano con combinazioni innovative o conoscenze esterne.

Fatti principali

  • Il framework AInstein testa i LLM su problemi di ricerca in AI usando solo conoscenza parametrica.
  • Studio cieco con 20 esperti del settore su problemi di ICLR 2026 tenuti nascosti.
  • Scalato a 1.214 articoli di ICLR 2025 usando il paradigma LLM-as-a-judge.
  • Due metriche: Tasso di Successo e Riscoperta.
  • I LLM hanno successo in oltre il 70% dei problemi.
  • Tasso di riscoperta rigoroso inferiore al 19%.
  • I modelli falliscono su problemi che richiedono combinazioni innovative o conoscenze esterne.
  • Pubblicato su arXiv con ID 2510.05432.

Entità

Istituzioni

  • arXiv
  • ICLR

Fonti