ARTFEED — Contemporary Art Intelligence

MemReward: Memoria Basata su Grafi per la Ricompensa di LLM con Etichette Scarse

other · 2026-05-25

MemReward è un framework di memoria esperienziale basato su grafi progettato per migliorare la previsione delle ricompense per i grandi modelli linguistici (LLM) nell'apprendimento per rinforzo quando le etichette di verità sono limitate. Il sistema memorizza i rollout (processi di pensiero) e propaga i segnali di ricompensa dai campioni etichettati a quelli non etichettati, ispirandosi all'apprendimento semi-supervisionato. Questo affronta le sfide in scenari con dati scarsi, come la valutazione di dimostrazioni matematiche o il rispondere a domande aperte, dove l'annotazione umana o la verifica esperta sono costose. MemReward si integra direttamente nell'ottimizzazione delle politiche online, migliorando l'efficacia del fine-tuning dell'apprendimento per rinforzo con etichette scarse. L'articolo è disponibile su arXiv con ID 2603.19310.

Fatti principali

  • MemReward è un framework di memoria esperienziale basato su grafi per la previsione delle ricompense degli LLM.
  • Affronta l'apprendimento per rinforzo con etichette di verità limitate.
  • Il metodo propaga le ricompense dai rollout etichettati a quelli non etichettati.
  • È ispirato alle tecniche di apprendimento semi-supervisionato.
  • Le applicazioni target includono la valutazione di dimostrazioni matematiche e il QA a domande aperte.
  • MemReward si integra nell'ottimizzazione delle politiche online.
  • L'articolo è pubblicato su arXiv con ID 2603.19310.
  • Mira a ridurre la dipendenza da costose annotazioni umane.

Entità

Istituzioni

  • arXiv

Fonti