MemReward: Memoria Basata su Grafi per la Ricompensa di LLM con Etichette Scarse

other · 2026-05-25

MemReward è un framework di memoria esperienziale basato su grafi progettato per migliorare la previsione delle ricompense per i grandi modelli linguistici (LLM) nell'apprendimento per rinforzo quando le etichette di verità sono limitate. Il sistema memorizza i rollout (processi di pensiero) e propaga i segnali di ricompensa dai campioni etichettati a quelli non etichettati, ispirandosi all'apprendimento semi-supervisionato. Questo affronta le sfide in scenari con dati scarsi, come la valutazione di dimostrazioni matematiche o il rispondere a domande aperte, dove l'annotazione umana o la verifica esperta sono costose. MemReward si integra direttamente nell'ottimizzazione delle politiche online, migliorando l'efficacia del fine-tuning dell'apprendimento per rinforzo con etichette scarse. L'articolo è disponibile su arXiv con ID 2603.19310.

Fatti principali

MemReward è un framework di memoria esperienziale basato su grafi per la previsione delle ricompense degli LLM.
Affronta l'apprendimento per rinforzo con etichette di verità limitate.
Il metodo propaga le ricompense dai rollout etichettati a quelli non etichettati.
È ispirato alle tecniche di apprendimento semi-supervisionato.
Le applicazioni target includono la valutazione di dimostrazioni matematiche e il QA a domande aperte.
MemReward si integra nell'ottimizzazione delle politiche online.
L'articolo è pubblicato su arXiv con ID 2603.19310.
Mira a ridurre la dipendenza da costose annotazioni umane.

MemReward: Memoria Basata su Grafi per la Ricompensa di LLM con Etichette Scarse

Fatti principali

Entità

Istituzioni

Fonti