AcademiClaw Benchmark Testa l'IA su Compiti Reali degli Studenti
Un nuovo benchmark chiamato AcademiClaw valuta gli agenti AI su compiti accademici complessi provenienti da studenti universitari. A differenza degli attuali benchmark OpenClaw, che si concentrano su compiti a livello di assistente, AcademiClaw mira a capacità di livello accademico. Il benchmark comprende 80 compiti bilingue tratti da 230 proposte di studenti, coprendo oltre 25 domini professionali, tra cui matematica a livello olimpico, linguistica, apprendimento per rinforzo con GPU e debug di sistemi full-stack. Sedici compiti richiedono l'esecuzione su GPU CUDA. Ogni compito viene eseguito in un sandbox Docker isolato e valutato utilizzando rubriche multidimensionali che combinano sei tecniche complementari. I compiti sono stati curati attraverso una revisione esperta rigorosa da flussi di lavoro reali degli studenti, come compiti a casa, progetti di ricerca, competizioni e progetti personali che gli attuali agenti AI faticano a risolvere. Il lavoro è pubblicato su arXiv con identificatore 2605.02661.
Fatti principali
- AcademiClaw è un benchmark bilingue di 80 compiti complessi.
- I compiti provengono da flussi di lavoro accademici reali di studenti universitari.
- 230 candidature di studenti sono state curate attraverso revisione esperta.
- I compiti coprono oltre 25 domini professionali.
- 16 compiti richiedono l'esecuzione su GPU CUDA.
- Ogni compito viene eseguito in un sandbox Docker isolato.
- La valutazione utilizza rubriche multidimensionali con sei tecniche complementari.
- Pubblicato su arXiv con ID 2605.02661.
Entità
Istituzioni
- OpenClaw
- AcademiClaw
- arXiv