Il framework AInstein valuta i LLM su problemi di ricerca in AI
Un nuovo framework chiamato AInstein valuta la capacità dei grandi modelli linguistici di affrontare sfide di ricerca in AI basandosi esclusivamente sulla conoscenza parametrica, senza ricorrere a fine-tuning, recupero o risorse esterne. Questa indagine, pubblicata su arXiv, presenta una validazione cieca con 20 esperti del settore che valutano problemi di ICLR 2026, estendendosi successivamente a 1.214 articoli di ICLR 2025 tramite un approccio LLM-as-a-judge. Le prestazioni sono valutate utilizzando due criteri: Tasso di Successo (la soluzione risolve il problema?) e Riscoperta (corrisponde al metodo pubblicato?). Mentre i LLM raggiungono un successo in oltre il 70% dei casi, replicano la soluzione pubblicata meno del 19% delle volte, dimostrando reali capacità di problem-solving. Tuttavia, faticano con combinazioni innovative o conoscenze esterne.
Fatti principali
- Il framework AInstein testa i LLM su problemi di ricerca in AI usando solo conoscenza parametrica.
- Studio cieco con 20 esperti del settore su problemi di ICLR 2026 tenuti nascosti.
- Scalato a 1.214 articoli di ICLR 2025 usando il paradigma LLM-as-a-judge.
- Due metriche: Tasso di Successo e Riscoperta.
- I LLM hanno successo in oltre il 70% dei problemi.
- Tasso di riscoperta rigoroso inferiore al 19%.
- I modelli falliscono su problemi che richiedono combinazioni innovative o conoscenze esterne.
- Pubblicato su arXiv con ID 2510.05432.
Entità
Istituzioni
- arXiv
- ICLR