MemQ: Apprendimento Q per Agenti di Memoria Auto-Evolventi su DAG di Provenienza
MemQ ha introdotto una tecnica innovativa che sfrutta le tracce di idoneità TD(λ) per migliorare i valori Q di memoria negli agenti basati su modelli linguistici di grandi dimensioni. Questo approccio consente al credito di fluire all'indietro attraverso un grafo aciclico diretto (DAG) di provenienza, a differenza dei metodi precedenti che trattavano le memorie in modo isolato. Il sistema di MemQ enfatizza le catene di dipendenza modificando il peso del credito in base a (γλ)^d, privilegiando la vicinanza strutturale rispetto al tempo. Il framework è definito Processo Decisionale di Markov a Contesto Esogeno (MDP), distinguendo tra compiti esterni e memoria interna. MemQ ha dimostrato prestazioni superiori, ottenendo i tassi di successo più elevati in sei metriche di valutazione, tra cui l'interazione con sistemi operativi e il question answering di livello esperto.
Fatti principali
- MemQ applica le tracce di idoneità TD(λ) ai valori Q di memoria
- Il credito si propaga all'indietro attraverso un DAG di provenienza
- Il peso del credito decade come (γλ)^d con la profondità d del DAG
- Formalizzato come un MDP a Contesto Esogeno
- Testato su sei benchmark: interazione con OS, chiamata di funzioni, generazione di codice, ragionamento multimodale, ragionamento incarnato, QA di livello esperto
- Ottiene il tasso di successo più alto in tutti i benchmark
Entità
—