Distillazione della Generazione di Modelli di Mondo di Codice di Gioco in LLM Leggeri
I ricercatori hanno introdotto un metodo per distillare la capacità di generare Modelli di Mondo di Codice di Gioco (GameCWMs) da grandi modelli di frontiera in LLM più piccoli e accessibili. I GameCWMs sono implementazioni Python delle regole di gioco che includono azioni legali, transizioni di stato, osservazioni e ricompense, consentendo agli agenti AI di utilizzare risolutori come Monte Carlo Tree Search. L'attuale generazione si basa su modelli grandi e raffinamento iterativo, limitando la scalabilità. Il team ha creato un dataset curato di 30 giochi che coprono informazioni perfette e imperfette, e ha utilizzato il post-training per trasferire le capacità. Questo lavoro mira a democratizzare la costruzione automatizzata di ambienti per agenti AI.
Fatti principali
- I modelli linguistici di grandi dimensioni possono generare codice eseguibile dal linguaggio naturale.
- I Modelli di Mondo di Codice traducono le regole di gioco in Python per i risolutori AI.
- I GameCWMs implementano regole, azioni, transizioni di stato, osservazioni e ricompense.
- Gli approcci attuali si basano su modelli di frontiera e raffinamento durante l'inferenza.
- Questo lavoro distilla la generazione di GameCWM in modelli più piccoli tramite post-training.
- È stato introdotto un dataset curato di 30 giochi.
- I giochi coprono informazioni perfette e imperfette.
- L'obiettivo è migliorare l'accessibilità e la scalabilità della generazione di ambienti.
Entità
—