Mage: Valutazione Multi-Asse di Scene di Gioco Generate da LLM Oltre il Tasso di Superamento della Compilazione

ai-technology · 2026-05-11

Un nuovo framework di valutazione chiamato Mage evidenzia i limiti del tasso di superamento della compilazione come misura per il codice generato da LLM in domini complessi. La ricerca, che ha coinvolto 858 tentativi di sintesi di scene di gioco eseguibili utilizzando quattro LLM open-weight (da 7B a 30B) e 26 pattern di obiettivi Unity creati manualmente, mostra che la generazione diretta di C# dal linguaggio naturale produce un tasso medio di superamento a runtime del 43%, ma genera scene prive di integrità strutturale (F1 del meccanismo ≈ 0,12). D'altra parte, il condizionamento strutturale IR migliora il successo a runtime del 50% e ripristina una struttura appropriata al dominio (F1 fino a 1,00). In particolare, all'interno del condizionamento IR, sia la granularità del solo comportamento che quella dell'intera scena non mostrano differenze significative (McNemar p = 1,0). Questo studio è disponibile su arXiv (2605.07342).

Fatti principali

Mage è un protocollo di valutazione a quattro assi: successo di compilazione, successo a runtime, fedeltà strutturale, aderenza al meccanismo.
858 tentativi di generazione su quattro LLM open-weight (7B-30B).
26 concetti giocabili di pattern di obiettivi Unity creati manualmente.
Due livelli di granularità IR estratti automaticamente testati.
La generazione diretta NL-to-C# raggiunge un tasso medio di superamento a runtime del 43%.
La generazione diretta produce un F1 del meccanismo ≈ 0,12 (strutturalmente vacuo).
Il condizionamento strutturale IR dimezza il tasso a runtime ma recupera una struttura fedele al dominio (F1 fino a 1,00).
La granularità del solo comportamento e dell'intera scena sono statisticamente indistinguibili (McNemar p = 1,0).

Entità

—

Fonti

arXiv cs.AI — 2026-05-11