APEX: Esplorazione Autonoma delle Politiche per Agenti LLM Auto-Evolventi
Un nuovo framework di intelligenza artificiale, noto come Autonomous Policy EXploration (APEX), affronta il problema del collasso dell'esplorazione negli agenti basati su modelli linguistici di grandi dimensioni (LLM) auto-evolventi. Questi agenti migliorano le proprie capacità accumulando memoria e riflettendo sulle esperienze passate senza modificare i pesi del modello. Tuttavia, tendono a stabilizzarsi su schemi familiari ad alta ricompensa, limitando la loro capacità di scoprire alternative superiori. APEX utilizza una mappa strategica—un grafo aciclico diretto che delinea traguardi con dipendenze prerequisite—per mantenere uno spazio strategico chiaro. Il componente Fork Discovery arricchisce la mappa con percorsi inesplorati basati su evidenze, mentre Policy Selection garantisce un equilibrio tra esplorazione e sfruttamento durante la pianificazione. Le valutazioni su nove compiti nell'ambiente Jericho hanno mostrato miglioramenti delle prestazioni rispetto ai metodi di base. La ricerca è disponibile su arXiv con l'identificatore 2605.21240.
Fatti principali
- APEX sta per Autonomous Policy EXploration.
- Affronta il collasso dell'esplorazione negli agenti LLM auto-evolventi.
- Gli agenti auto-evolventi accumulano memoria e riflessione tra episodi senza aggiornamenti dei pesi.
- APEX utilizza una mappa strategica: un grafo aciclico diretto di traguardi con dipendenze prerequisite.
- Fork Discovery espande la mappa con direzioni inesplorate basate su evidenze.
- Policy Selection bilancia esplorazione e sfruttamento durante la pianificazione.
- Valutato su nove compiti nell'ambiente Jericho.
- Articolo disponibile su arXiv: 2605.21240.
Entità
Istituzioni
- arXiv