ARTFEED — Contemporary Art Intelligence

AcademiClaw Benchmark Testa l'IA su Compiti Reali degli Studenti

other · 2026-05-06

Un nuovo benchmark chiamato AcademiClaw valuta gli agenti AI su compiti accademici complessi provenienti da studenti universitari. A differenza degli attuali benchmark OpenClaw, che si concentrano su compiti a livello di assistente, AcademiClaw mira a capacità di livello accademico. Il benchmark comprende 80 compiti bilingue tratti da 230 proposte di studenti, coprendo oltre 25 domini professionali, tra cui matematica a livello olimpico, linguistica, apprendimento per rinforzo con GPU e debug di sistemi full-stack. Sedici compiti richiedono l'esecuzione su GPU CUDA. Ogni compito viene eseguito in un sandbox Docker isolato e valutato utilizzando rubriche multidimensionali che combinano sei tecniche complementari. I compiti sono stati curati attraverso una revisione esperta rigorosa da flussi di lavoro reali degli studenti, come compiti a casa, progetti di ricerca, competizioni e progetti personali che gli attuali agenti AI faticano a risolvere. Il lavoro è pubblicato su arXiv con identificatore 2605.02661.

Fatti principali

  • AcademiClaw è un benchmark bilingue di 80 compiti complessi.
  • I compiti provengono da flussi di lavoro accademici reali di studenti universitari.
  • 230 candidature di studenti sono state curate attraverso revisione esperta.
  • I compiti coprono oltre 25 domini professionali.
  • 16 compiti richiedono l'esecuzione su GPU CUDA.
  • Ogni compito viene eseguito in un sandbox Docker isolato.
  • La valutazione utilizza rubriche multidimensionali con sei tecniche complementari.
  • Pubblicato su arXiv con ID 2605.02661.

Entità

Istituzioni

  • OpenClaw
  • AcademiClaw
  • arXiv

Fonti