EngramaBench: Nuovo Benchmark per la Memoria Conversazionale a Lungo Termine

ai-technology · 2026-04-25

I ricercatori hanno creato EngramaBench per valutare quanto bene gli assistenti basati su grandi modelli linguistici ricordino le conversazioni nel tempo. Questo benchmark presenta cinque personaggi unici, include cento dialoghi multi-sessione e propone centocinquanta domande che coprono aree come il richiamo fattuale e il ragionamento. Nella valutazione, Engrama, un sistema di memoria basato su grafi, è stato confrontato con GPT-4o utilizzando prompt a contesto completo, insieme a Mem0, un sistema di memoria a recupero vettoriale open-source che utilizzava anch'esso GPT-4o per le risposte. GPT-4o con contesto completo ha ottenuto il punteggio più alto, 0,6186, mentre Engrama ha raggiunto 0,5367 complessivo, eccellendo nel ragionamento cross-spazio con 0,6532. Mem0, nonostante fosse più economico, è rimasto indietro con un punteggio di 0,4809.

Fatti principali

EngramaBench include cinque personaggi, 100 conversazioni multi-sessione e 150 domande.
Le domande spaziano dal richiamo fattuale, all'integrazione cross-spazio, al ragionamento temporale, all'astensione avversaria e alla sintesi emergente.
Engrama è un sistema di memoria strutturato a grafo.
Mem0 è un sistema di memoria a recupero vettoriale open-source.
Tutti i sistemi utilizzano GPT-4o come modello di risposta.
GPT-4o a contesto completo ha ottenuto il punteggio composito più alto (0,6186).
Engrama ha ottenuto un punteggio globale di 0,5367.
Engrama ha superato il contesto completo nel ragionamento cross-spazio (0,6532 contro 0,6291).
Mem0 ha ottenuto 0,4809.

EngramaBench: Nuovo Benchmark per la Memoria Conversazionale a Lungo Termine

Fatti principali

Entità

Istituzioni

Fonti