COSPLAY: Co-Evoluzione di Agenti LLM e Banche di Abilità per Compiti a Lungo Termine
Un nuovo framework chiamato COSPLAY consente ai grandi modelli linguistici (LLM) di migliorare il processo decisionale a lungo termine in ambienti interattivi come i giochi. Il sistema abbina un agente decisionale LLM a una banca di abilità apprendibile che memorizza abilità riutilizzabili scoperte dalle traiettorie non etichettate dell'agente stesso. Co-evolvendo entrambi i componenti, l'agente decisionale impara un migliore recupero delle abilità e una migliore selezione delle azioni nel tempo, affrontando una debolezza chiave degli LLM nel ragionamento multi-step con ricompense ritardate e osservabilità parziale. La ricerca è pubblicata su arXiv (2604.20987).
Fatti principali
- 1. COSPLAY è un framework di co-evoluzione per agenti LLM in compiti a lungo termine.
- 2. È composto da un agente decisionale LLM e una banca di abilità apprendibile.
- 3. Le abilità vengono scoperte da traiettorie non etichettate dell'agente.
- 4. Il framework migliora il recupero delle abilità e la selezione delle azioni.
- 5. Affronta le difficoltà degli LLM nel processo decisionale coerente a lungo termine.
- 6. I giochi fungono da banchi di prova per valutare l'uso delle abilità.
- 7. L'articolo è su arXiv con ID 2604.20987.
- 8. L'approccio gestisce ricompense ritardate e osservabilità parziale.
Entità
Istituzioni
- arXiv