JobBench: Nuovo Benchmark Valuta Agenti AI su Compiti Preferiti dagli Umani

ai-technology · 2026-05-27

I ricercatori hanno introdotto JobBench, un benchmark che valuta gli agenti AI su flussi di lavoro che gli esperti identificano come ad alta priorità per la delega, spostando l'attenzione dalla sostituzione economica all'empowerment umano. JobBench copre 130 compiti agentici in 35 occupazioni, ciascuno confezionato come un ambiente di lavoro con file di riferimento eterogenei che richiedono ragionamento attraverso flussi di informazioni disordinati. Gli output sono valutati da una catena di rubriche ancorate ai fatti, con una media di 35,6 criteri binari per compito. Il modello più forte, Claude Opus 4.7 su Claude Code, raggiunge solo il 45,9%. Il benchmark mira a reindirizzare l'effetto sul mercato del lavoro target della comunità dalla sostituzione al potenziamento, costruendo agenti che fanno ciò che gli umani vogliono effettivamente delegare, piuttosto che ciò che è più economicamente prezioso.

Fatti principali

JobBench valuta gli agenti AI su flussi di lavoro che gli esperti identificano come ad alta priorità per la delega
Copre 130 compiti agentici in 35 occupazioni
Ogni compito include un ambiente di lavoro con file di riferimento eterogenei
Valutato da una catena di rubriche ancorate ai fatti con una media di 35,6 criteri binari per compito
36 modelli valutati; Claude Opus 4.7 su Claude Code raggiunge il 45,9%
Mira a spostare l'attenzione dalla sostituzione al potenziamento nell'effetto sul mercato del lavoro

JobBench: Nuovo Benchmark Valuta Agenti AI su Compiti Preferiti dagli Umani

Fatti principali

Entità

Istituzioni

Fonti