MEMAUDIT: Un Nuovo Protocollo per Valutare la Scrittura della Memoria degli LLM
MEMAUDIT è stato presentato dai ricercatori come un protocollo di valutazione preciso per la scrittura della memoria a lungo termine con budget negli agenti LLM. Questo protocollo stabilisce un flusso di esperienze fisso, identifica rappresentazioni di memoria candidate, valuta i costi di archiviazione e definisce unità di evidenza semantica, requisiti di query future e un budget. Trasforma la selezione della memoria durante la scrittura in una sfida di ottimizzazione finita e verificabile con un denominatore certificato. Utilizzando un obiettivo di copertura semantica concava-modulare sotto vincoli di archiviazione e una rappresentazione per esperienza, calcola gli optima esatti del pacchetto attraverso branch-and-bound con certificazione MILP. Questo sviluppo affronta la limitazione delle valutazioni attuali che confondono la scrittura della memoria con il recupero, il prompting e il ragionamento. Il protocollo è stato testato con pacchetti esatti controllati, test di stress di validità rigorosi e valutazione umana.
Fatti principali
- MEMAUDIT è un protocollo di valutazione oracle di pacchetti esatti per la scrittura della memoria a lungo termine con budget negli LLM.
- Fissa un flusso di esperienze, rappresentazioni di memoria candidate, costi di archiviazione, unità di evidenza semantica, requisiti di query future e un budget.
- Il protocollo trasforma la selezione della memoria in fase di scrittura in un problema di ottimizzazione finito e verificabile con un denominatore certificato.
- Utilizza un obiettivo di copertura semantica concava-modulare sotto vincoli di archiviazione e una rappresentazione per esperienza.
- Gli optima esatti del pacchetto sono calcolati usando branch-and-bound con certificazione MILP.
- Le valutazioni esistenti di solito misurano l'accuratezza finale delle risposte alle domande, che confonde la scrittura della memoria con il recupero, il prompting e il ragionamento del lettore.
- Il protocollo è stato testato attraverso pacchetti esatti controllati, test di stress di validità rigorosi e valutazione umana.
- L'articolo è disponibile su arXiv con ID 2605.02199.
Entità
Istituzioni
- arXiv