COSPLAY: Co-Evoluzione di Agenti LLM e Banche di Abilità per Compiti a Lungo Termine

ai-technology · 2026-04-25

Un nuovo framework chiamato COSPLAY consente ai grandi modelli linguistici (LLM) di migliorare il processo decisionale a lungo termine in ambienti interattivi come i giochi. Il sistema abbina un agente decisionale LLM a una banca di abilità apprendibile che memorizza abilità riutilizzabili scoperte dalle traiettorie non etichettate dell'agente stesso. Co-evolvendo entrambi i componenti, l'agente decisionale impara un migliore recupero delle abilità e una migliore selezione delle azioni nel tempo, affrontando una debolezza chiave degli LLM nel ragionamento multi-step con ricompense ritardate e osservabilità parziale. La ricerca è pubblicata su arXiv (2604.20987).

Fatti principali

1. COSPLAY è un framework di co-evoluzione per agenti LLM in compiti a lungo termine.
2. È composto da un agente decisionale LLM e una banca di abilità apprendibile.
3. Le abilità vengono scoperte da traiettorie non etichettate dell'agente.
4. Il framework migliora il recupero delle abilità e la selezione delle azioni.
5. Affronta le difficoltà degli LLM nel processo decisionale coerente a lungo termine.
6. I giochi fungono da banchi di prova per valutare l'uso delle abilità.
7. L'articolo è su arXiv con ID 2604.20987.
8. L'approccio gestisce ricompense ritardate e osservabilità parziale.

COSPLAY: Co-Evoluzione di Agenti LLM e Banche di Abilità per Compiti a Lungo Termine

Fatti principali

Entità

Istituzioni

Fonti