Valutazione della memoria degli agenti condizionata dalla scala rivela perdita di affidabilità

publication · 2026-05-11

Un recente studio pubblicato su arXiv (2605.07313) presenta un nuovo protocollo di valutazione per gli agenti di memoria condizionato dalla scala. Questo protocollo valuta l'usabilità delle prove memorizzate man mano che crescono sessioni non correlate, mantenendo costanti le prove del compito mentre vengono introdotti dati estranei. I risultati includono quattro diagnostiche chiave: affidabilità conforme al budget, carico di chiamate di memoria nella coda, decomposizione del regime di fallimento e confine di scala utilizzabile. Applicato ai benchmark LongMemEval e LoCoMo attraverso varie interfacce di memoria—piatta, planare e gerarchica—la ricerca indica che la perdita di affidabilità si manifesta in molteplici modi. Ad esempio, HippoRAG rispetta un budget di due chiamate ma subisce un calo di 16–20 punti percentuali nell'affidabilità conforme al budget con l'aumento di sessioni irrilevanti.

Fatti principali

Il paper arXiv:2605.07313 introduce una valutazione della memoria degli agenti condizionata dalla scala.
Il protocollo mantiene fisse le prove del compito mentre aggiunge sessioni irrilevanti.
Quattro diagnostiche: affidabilità conforme al budget, carico di chiamate di memoria nella coda, decomposizione del regime di fallimento, confine di scala utilizzabile.
Applicato ai benchmark LongMemEval e LoCoMo.
HippoRAG perde 16–20 punti percentuali di affidabilità man mano che le sessioni irrilevanti si accumulano.
Interfacce di memoria testate: piatta, planare, gerarchica.
La perdita di affidabilità non è un fenomeno singolo.
Studio pubblicato su arXiv.

Valutazione della memoria degli agenti condizionata dalla scala rivela perdita di affidabilità

Fatti principali

Entità

Istituzioni

Fonti