ARTFEED — Contemporary Art Intelligence

MEMAUDIT: Un Nuovo Protocollo per Valutare la Scrittura della Memoria degli LLM

ai-technology · 2026-05-06

MEMAUDIT è stato presentato dai ricercatori come un protocollo di valutazione preciso per la scrittura della memoria a lungo termine con budget negli agenti LLM. Questo protocollo stabilisce un flusso di esperienze fisso, identifica rappresentazioni di memoria candidate, valuta i costi di archiviazione e definisce unità di evidenza semantica, requisiti di query future e un budget. Trasforma la selezione della memoria durante la scrittura in una sfida di ottimizzazione finita e verificabile con un denominatore certificato. Utilizzando un obiettivo di copertura semantica concava-modulare sotto vincoli di archiviazione e una rappresentazione per esperienza, calcola gli optima esatti del pacchetto attraverso branch-and-bound con certificazione MILP. Questo sviluppo affronta la limitazione delle valutazioni attuali che confondono la scrittura della memoria con il recupero, il prompting e il ragionamento. Il protocollo è stato testato con pacchetti esatti controllati, test di stress di validità rigorosi e valutazione umana.

Fatti principali

  • MEMAUDIT è un protocollo di valutazione oracle di pacchetti esatti per la scrittura della memoria a lungo termine con budget negli LLM.
  • Fissa un flusso di esperienze, rappresentazioni di memoria candidate, costi di archiviazione, unità di evidenza semantica, requisiti di query future e un budget.
  • Il protocollo trasforma la selezione della memoria in fase di scrittura in un problema di ottimizzazione finito e verificabile con un denominatore certificato.
  • Utilizza un obiettivo di copertura semantica concava-modulare sotto vincoli di archiviazione e una rappresentazione per esperienza.
  • Gli optima esatti del pacchetto sono calcolati usando branch-and-bound con certificazione MILP.
  • Le valutazioni esistenti di solito misurano l'accuratezza finale delle risposte alle domande, che confonde la scrittura della memoria con il recupero, il prompting e il ragionamento del lettore.
  • Il protocollo è stato testato attraverso pacchetti esatti controllati, test di stress di validità rigorosi e valutazione umana.
  • L'articolo è disponibile su arXiv con ID 2605.02199.

Entità

Istituzioni

  • arXiv

Fonti