MemQ: Apprendimento Q per Agenti di Memoria Auto-Evolventi su DAG di Provenienza

other · 2026-05-12

MemQ ha introdotto una tecnica innovativa che sfrutta le tracce di idoneità TD(λ) per migliorare i valori Q di memoria negli agenti basati su modelli linguistici di grandi dimensioni. Questo approccio consente al credito di fluire all'indietro attraverso un grafo aciclico diretto (DAG) di provenienza, a differenza dei metodi precedenti che trattavano le memorie in modo isolato. Il sistema di MemQ enfatizza le catene di dipendenza modificando il peso del credito in base a (γλ)^d, privilegiando la vicinanza strutturale rispetto al tempo. Il framework è definito Processo Decisionale di Markov a Contesto Esogeno (MDP), distinguendo tra compiti esterni e memoria interna. MemQ ha dimostrato prestazioni superiori, ottenendo i tassi di successo più elevati in sei metriche di valutazione, tra cui l'interazione con sistemi operativi e il question answering di livello esperto.

Fatti principali

MemQ applica le tracce di idoneità TD(λ) ai valori Q di memoria
Il credito si propaga all'indietro attraverso un DAG di provenienza
Il peso del credito decade come (γλ)^d con la profondità d del DAG
Formalizzato come un MDP a Contesto Esogeno
Testato su sei benchmark: interazione con OS, chiamata di funzioni, generazione di codice, ragionamento multimodale, ragionamento incarnato, QA di livello esperto
Ottiene il tasso di successo più alto in tutti i benchmark

Entità

—

Fonti

arXiv cs.AI — 2026-05-12