Distillazione della Generazione di Modelli di Mondo di Codice di Gioco in LLM Leggeri

ai-technology · 2026-05-26

I ricercatori hanno introdotto un metodo per distillare la capacità di generare Modelli di Mondo di Codice di Gioco (GameCWMs) da grandi modelli di frontiera in LLM più piccoli e accessibili. I GameCWMs sono implementazioni Python delle regole di gioco che includono azioni legali, transizioni di stato, osservazioni e ricompense, consentendo agli agenti AI di utilizzare risolutori come Monte Carlo Tree Search. L'attuale generazione si basa su modelli grandi e raffinamento iterativo, limitando la scalabilità. Il team ha creato un dataset curato di 30 giochi che coprono informazioni perfette e imperfette, e ha utilizzato il post-training per trasferire le capacità. Questo lavoro mira a democratizzare la costruzione automatizzata di ambienti per agenti AI.

Fatti principali

I modelli linguistici di grandi dimensioni possono generare codice eseguibile dal linguaggio naturale.
I Modelli di Mondo di Codice traducono le regole di gioco in Python per i risolutori AI.
I GameCWMs implementano regole, azioni, transizioni di stato, osservazioni e ricompense.
Gli approcci attuali si basano su modelli di frontiera e raffinamento durante l'inferenza.
Questo lavoro distilla la generazione di GameCWM in modelli più piccoli tramite post-training.
È stato introdotto un dataset curato di 30 giochi.
I giochi coprono informazioni perfette e imperfette.
L'obiettivo è migliorare l'accessibilità e la scalabilità della generazione di ambienti.

Entità

—

Fonti

arXiv cs.AI — 2026-05-26