Modelli del Mondo Diffusivi con Esperti di Memoria Eterogenei
Un recente preprint su arXiv presenta un framework chiamato Composizione di Esperti di Memoria per Modelli del Mondo Diffusivi, che separa la coerenza futuro-passato da un'unica architettura. Questo metodo utilizza una collezione di esperti di memoria specializzati combinati attraverso un approccio contrastivo di prodotto di esperti. Definisce tre ruoli distinti: un esperto di memoria a breve termine che si concentra sulle dinamiche locali fini, un esperto di memoria a lungo termine che conserva la storia episodica in pesi di diffusione esterni attraverso un fine-tuning leggero al momento del test, e un terzo esperto progettato per affrontare il compromesso di memoria presente nelle architetture attuali come i transformer e i modelli spazio-stato. L'articolo è accessibile su arXiv:2605.18813.
Fatti principali
- arXiv:2605.18813v1
- Tipo di annuncio: cross
- Introduce un framework basato su diffusione con esperti di memoria eterogenei
- Utilizza una formulazione contrastiva di prodotto di esperti
- Tre esperti: memoria a breve termine, memoria a lungo termine e un terzo
- L'esperto di memoria a lungo termine utilizza pesi di diffusione esterni tramite fine-tuning al test
- Mirato a superare il compromesso di memoria nei transformer e nei modelli spazio-stato
- Pubblicato su arXiv
Entità
Istituzioni
- arXiv