EngramaBench: Nuovo Benchmark per la Memoria Conversazionale a Lungo Termine
I ricercatori hanno creato EngramaBench per valutare quanto bene gli assistenti basati su grandi modelli linguistici ricordino le conversazioni nel tempo. Questo benchmark presenta cinque personaggi unici, include cento dialoghi multi-sessione e propone centocinquanta domande che coprono aree come il richiamo fattuale e il ragionamento. Nella valutazione, Engrama, un sistema di memoria basato su grafi, è stato confrontato con GPT-4o utilizzando prompt a contesto completo, insieme a Mem0, un sistema di memoria a recupero vettoriale open-source che utilizzava anch'esso GPT-4o per le risposte. GPT-4o con contesto completo ha ottenuto il punteggio più alto, 0,6186, mentre Engrama ha raggiunto 0,5367 complessivo, eccellendo nel ragionamento cross-spazio con 0,6532. Mem0, nonostante fosse più economico, è rimasto indietro con un punteggio di 0,4809.
Fatti principali
- EngramaBench include cinque personaggi, 100 conversazioni multi-sessione e 150 domande.
- Le domande spaziano dal richiamo fattuale, all'integrazione cross-spazio, al ragionamento temporale, all'astensione avversaria e alla sintesi emergente.
- Engrama è un sistema di memoria strutturato a grafo.
- Mem0 è un sistema di memoria a recupero vettoriale open-source.
- Tutti i sistemi utilizzano GPT-4o come modello di risposta.
- GPT-4o a contesto completo ha ottenuto il punteggio composito più alto (0,6186).
- Engrama ha ottenuto un punteggio globale di 0,5367.
- Engrama ha superato il contesto completo nel ragionamento cross-spazio (0,6532 contro 0,6291).
- Mem0 ha ottenuto 0,4809.
Entità
Istituzioni
- arXiv