PatchWorld: Ottimizzazione Senza Gradienti di Modelli del Mondo Eseguibili
PatchWorld, un nuovo framework, presenta un metodo per ottimizzare modelli del mondo eseguibili in contesti di agenti testuali senza fare affidamento sui gradienti. A differenza dei modelli convenzionali che considerano questi contesti come processi decisionali di Markov parzialmente osservabili (POMDP) con stati nascosti e dinamiche di transizione assunte, PatchWorld genera modelli del mondo Python eseguibili da traiettorie offline tramite riparazione del codice guidata da controesempi. Questa tecnica produce programmi simbolici di stato di credenza con aggiornamenti delle azioni che possono essere esaminati, riprodotti e modificati localmente, evitando così la necessità di previsioni black-box della prossima osservazione. In sette ambienti AgentGym, PatchWorld-Simple ha ottenuto il punteggio più alto nella pianificazione basata su codice tra quelli valutati, raggiungendo un tasso di successo macro del 76,4% in live one-step lookahead senza effettuare alcuna chiamata LLM nel modulo di previsione del modello del mondo.
Fatti principali
- PatchWorld è un framework senza gradienti per modelli del mondo eseguibili.
- Utilizza la riparazione del codice guidata da controesempi per indurre modelli del mondo Python da traiettorie offline.
- Il framework produce programmi simbolici di stato di credenza con aggiornamenti delle azioni ispezionabili.
- PatchWorld-Simple raggiunge il 76,4% di successo macro in live one-step lookahead in sette ambienti AgentGym.
- Non vengono effettuate chiamate LLM all'interno del modulo di previsione del modello del mondo.
- L'approccio evita la previsione black-box della prossima osservazione.
- Gli ambienti di agenti testuali sono tipicamente modellati come POMDP.
- Il lavoro è pubblicato su arXiv con ID 2605.30880.
Entità
Istituzioni
- arXiv
- AgentGym