MemReward: Memoria Basata su Grafi per la Ricompensa di LLM con Etichette Scarse
MemReward è un framework di memoria esperienziale basato su grafi progettato per migliorare la previsione delle ricompense per i grandi modelli linguistici (LLM) nell'apprendimento per rinforzo quando le etichette di verità sono limitate. Il sistema memorizza i rollout (processi di pensiero) e propaga i segnali di ricompensa dai campioni etichettati a quelli non etichettati, ispirandosi all'apprendimento semi-supervisionato. Questo affronta le sfide in scenari con dati scarsi, come la valutazione di dimostrazioni matematiche o il rispondere a domande aperte, dove l'annotazione umana o la verifica esperta sono costose. MemReward si integra direttamente nell'ottimizzazione delle politiche online, migliorando l'efficacia del fine-tuning dell'apprendimento per rinforzo con etichette scarse. L'articolo è disponibile su arXiv con ID 2603.19310.
Fatti principali
- MemReward è un framework di memoria esperienziale basato su grafi per la previsione delle ricompense degli LLM.
- Affronta l'apprendimento per rinforzo con etichette di verità limitate.
- Il metodo propaga le ricompense dai rollout etichettati a quelli non etichettati.
- È ispirato alle tecniche di apprendimento semi-supervisionato.
- Le applicazioni target includono la valutazione di dimostrazioni matematiche e il QA a domande aperte.
- MemReward si integra nell'ottimizzazione delle politiche online.
- L'articolo è pubblicato su arXiv con ID 2603.19310.
- Mira a ridurre la dipendenza da costose annotazioni umane.
Entità
Istituzioni
- arXiv