AcademiClaw Benchmark Testa l'IA su Compiti Reali degli Studenti

other · 2026-05-06

Un nuovo benchmark chiamato AcademiClaw valuta gli agenti AI su compiti accademici complessi provenienti da studenti universitari. A differenza degli attuali benchmark OpenClaw, che si concentrano su compiti a livello di assistente, AcademiClaw mira a capacità di livello accademico. Il benchmark comprende 80 compiti bilingue tratti da 230 proposte di studenti, coprendo oltre 25 domini professionali, tra cui matematica a livello olimpico, linguistica, apprendimento per rinforzo con GPU e debug di sistemi full-stack. Sedici compiti richiedono l'esecuzione su GPU CUDA. Ogni compito viene eseguito in un sandbox Docker isolato e valutato utilizzando rubriche multidimensionali che combinano sei tecniche complementari. I compiti sono stati curati attraverso una revisione esperta rigorosa da flussi di lavoro reali degli studenti, come compiti a casa, progetti di ricerca, competizioni e progetti personali che gli attuali agenti AI faticano a risolvere. Il lavoro è pubblicato su arXiv con identificatore 2605.02661.

Fatti principali

AcademiClaw è un benchmark bilingue di 80 compiti complessi.
I compiti provengono da flussi di lavoro accademici reali di studenti universitari.
230 candidature di studenti sono state curate attraverso revisione esperta.
I compiti coprono oltre 25 domini professionali.
16 compiti richiedono l'esecuzione su GPU CUDA.
Ogni compito viene eseguito in un sandbox Docker isolato.
La valutazione utilizza rubriche multidimensionali con sei tecniche complementari.
Pubblicato su arXiv con ID 2605.02661.

AcademiClaw Benchmark Testa l'IA su Compiti Reali degli Studenti

Fatti principali

Entità

Istituzioni

Fonti