DeferMem: Apprendimento per Rinforzo per la Memoria a Lungo Termine nei QA
DeferMem è un framework di memoria a lungo termine per agenti LLM che separa l'elaborazione della memoria in recupero di candidati ad alta richiamo e distillazione di prove condizionata dalla query. Utilizza una struttura leggera di collegamenti a segmenti per organizzare la cronologia conversazionale grezza e recuperare candidati ampi al momento della query. Un distillatore di memoria addestrato con DistillPO, un algoritmo di apprendimento per rinforzo, distilla candidati ad alta richiamo ma rumorosi in prove specifiche per la query. Questo approccio affronta la sfida di prove sparse in storie lunghe e contenuti irrilevanti, migliorando l'accuratezza delle risposte senza pre-elaborare la memoria prima che le query siano note.
Fatti principali
- DeferMem è un framework di memoria a lungo termine per agenti LLM.
- Separa la memoria in recupero di candidati ad alta richiamo e distillazione di prove condizionata dalla query.
- Utilizza una struttura leggera di collegamenti a segmenti per organizzare la cronologia grezza.
- Recupera candidati ampi al momento della query.
- Applica un distillatore di memoria addestrato con l'algoritmo di apprendimento per rinforzo DistillPO.
- DistillPO distilla candidati ad alta richiamo ma rumorosi in prove specifiche per la query.
- Affronta il problema di prove sparse in storie conversazionali lunghe.
- Migliora l'accuratezza delle risposte senza pre-elaborare la memoria prima delle query.
Entità
—