JobBench: Nuovo Benchmark Valuta Agenti AI su Compiti Preferiti dagli Umani
I ricercatori hanno introdotto JobBench, un benchmark che valuta gli agenti AI su flussi di lavoro che gli esperti identificano come ad alta priorità per la delega, spostando l'attenzione dalla sostituzione economica all'empowerment umano. JobBench copre 130 compiti agentici in 35 occupazioni, ciascuno confezionato come un ambiente di lavoro con file di riferimento eterogenei che richiedono ragionamento attraverso flussi di informazioni disordinati. Gli output sono valutati da una catena di rubriche ancorate ai fatti, con una media di 35,6 criteri binari per compito. Il modello più forte, Claude Opus 4.7 su Claude Code, raggiunge solo il 45,9%. Il benchmark mira a reindirizzare l'effetto sul mercato del lavoro target della comunità dalla sostituzione al potenziamento, costruendo agenti che fanno ciò che gli umani vogliono effettivamente delegare, piuttosto che ciò che è più economicamente prezioso.
Fatti principali
- JobBench valuta gli agenti AI su flussi di lavoro che gli esperti identificano come ad alta priorità per la delega
- Copre 130 compiti agentici in 35 occupazioni
- Ogni compito include un ambiente di lavoro con file di riferimento eterogenei
- Valutato da una catena di rubriche ancorate ai fatti con una media di 35,6 criteri binari per compito
- 36 modelli valutati; Claude Opus 4.7 su Claude Code raggiunge il 45,9%
- Mira a spostare l'attenzione dalla sostituzione al potenziamento nell'effetto sul mercato del lavoro
Entità
Istituzioni
- arXiv