Il Benchmark SciCrafter Rivela che gli Agenti AI Raggiungono un Plateau del 26% nei Compiti di Scoperta e Applicazione in Minecraft

ai-technology · 2026-04-29

Un nuovo standard noto come SciCrafter, sviluppato all'interno di Minecraft, valuta gli agenti AI nel ciclo dalla scoperta all'applicazione, facendo loro creare circuiti di redstone che attivano lampade secondo schemi designati. La ricerca esamina modelli all'avanguardia come GPT-5.2, Gemini-3-Pro e Claude-Opus-4.5 all'interno di un framework generale per agenti di codice, rivelando che tutti raggiungono un tasso di successo di circa il 26%. Questo benchmark evidenzia il divario tra scoperta scientifica e ingegneria pratica attraverso compiti parametrizzati, dove l'aumento dei parametri target aumenta la difficoltà di costruzione, richiedendo una scoperta autentica invece di fare affidamento su risposte memorizzate. Lo studio suddivide il ciclo in quattro capacità, concentrandosi sull'identificazione delle lacune conoscitive per analizzare i fallimenti. Questa ricerca è disponibile su arXiv con l'identificatore 2604.24697.

Fatti principali

SciCrafter è un benchmark basato su Minecraft per il ciclo scoperta-applicazione
Gli agenti devono accendere lampade secondo schemi specificati utilizzando circuiti di redstone
L'aumento dei parametri target incrementa la complessità costruttiva e le conoscenze richieste
I modelli all'avanguardia valutati includono GPT-5.2, Gemini-3-Pro e Claude-Opus-4.5
Tutti i modelli raggiungono un plateau con un tasso di successo di circa il 26%
Il benchmark operazionalizza il ciclo scoperta-applicazione
La ricerca scompone il ciclo in quattro capacità
Pubblicato su arXiv con l'identificatore 2604.24697

Il Benchmark SciCrafter Rivela che gli Agenti AI Raggiungono un Plateau del 26% nei Compiti di Scoperta e Applicazione in Minecraft

Fatti principali

Entità

Istituzioni

Fonti