FORGE: Evoluzione della Memoria degli Agenti LLM tramite Trasmissione di Popolazione
Un nuovo protocollo chiamato FORGE (Failure-Optimized Reflective Graduation and Evolution) consente agli agenti LLM di migliorare il processo decisionale attraverso memoria autogenerata senza aggiornamenti dei pesi. Utilizza un approccio basato su popolazione in cui la memoria in linguaggio naturale iniettata tramite prompt si evolve attraverso fasi. Un ciclo interno di Reflexion converte le traiettorie fallite in artefatti riutilizzabili (regole, esempi o misti), mentre un ciclo esterno propaga la memoria migliore attraverso la popolazione e congela le istanze convergenti. Testato su CybORG CAGE-2, un POMDP stocastico di difesa di rete, con quattro famiglie di LLM (Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick e altri), FORGE dimostra miglioramenti delle prestazioni senza aggiornamenti del gradiente.
Fatti principali
- 1. FORGE sta per Failure-Optimized Reflective Graduation and Evolution
- 2. Non vengono utilizzati aggiornamenti dei pesi; la memoria si evolve tramite iniezione di prompt
- 3. Il ciclo interno utilizza la riflessione di tipo Reflexion sulle traiettorie fallite
- 4. Gli artefatti di memoria includono Regole, Esempi o Misti
- 5. Il ciclo esterno propaga la memoria con le migliori prestazioni attraverso la popolazione
- 6. Il criterio di graduazione congela le istanze convergenti
- 7. Valutato su CybORG CAGE-2 con orizzonte di 30 passi contro un attaccante B-line
- 8. Testato con Gemini-2.5-Flash-Lite, Grok-4-Fast, Llama-4-Maverick
Entità
Istituzioni
- arXiv
- CybORG