Evoluzione Guidata da LLM Scopre Interfacce per Compiti RL dallo Stato del Simulatore Grezzo
Un nuovo framework chiamato LIMEN utilizza grandi modelli linguistici per guidare la scoperta evolutiva di interfacce per compiti di apprendimento per rinforzo, incluse sia mappature di osservazione che funzioni di ricompensa, direttamente dallo stato grezzo del simulatore. A differenza dei lavori precedenti che automatizzavano solo la progettazione delle ricompense con osservazioni fisse, LIMEN sintetizza interfacce complete generando programmi candidati e raffinandoli iterativamente in base al feedback dell'addestramento delle politiche. L'approccio è stato testato su compiti discreti di gridworld e domini di controllo continuo per locomozione e manipolazione, dimostrando che l'evoluzione congiunta di osservazioni e ricompense può produrre interfacce efficaci. Il codice è disponibile su GitHub.
Fatti principali
- LIMEN è un framework evolutivo guidato da LLM per la scoperta di interfacce per compiti RL.
- Sintetizza sia mappature di osservazione che funzioni di ricompensa dallo stato grezzo del simulatore.
- Le interfacce candidate sono generate come programmi eseguibili.
- Le interfacce vengono raffinati iterativamente utilizzando il feedback dell'addestramento delle politiche.
- Testato su compiti discreti di gridworld e domini di controllo continuo.
- I domini includono compiti di locomozione e manipolazione.
- Codice disponibile su https://github.com/Lossfunk/LIMEN.
- ID articolo arXiv: 2605.03408.
Entità
—