RHyVE: Verifica Consapevole delle Competenze per Ricompense Generate da LLM nell'Apprendimento per Rinforzo
Uno studio recente pubblicato su arXiv introduce RHyVE, un metodo progettato per validare e implementare ipotesi di ricompensa prodotte da grandi modelli linguistici (LLM) nell'ambito dell'apprendimento per rinforzo. I ricercatori considerano le ricompense generate come ipotesi, la cui efficacia è influenzata dall'abilità della politica e dalla fase di addestramento. RHyVE impiega una verifica fork a breve orizzonte per valutare le opzioni di ricompensa derivate da checkpoint di politica comuni. I risultati indicano che a livelli di competenza inferiori, le classifiche delle ricompense mancano di affidabilità, ma diventano preziose una volta raggiunte specifiche soglie legate al compito. In un compito di manipolazione sparsa, l'implementazione di ricompense con consapevolezza della fase migliora le prestazioni complessive.
Fatti principali
- Titolo del paper: RHyVE: Verifica Consapevole delle Competenze e Implementazione Consapevole della Fase per Ipotesi di Ricompensa Generate da LLM
- Pubblicato su arXiv con ID 2604.28056
- Propone un protocollo per verificare le ipotesi di ricompensa generate da LLM nell'apprendimento per rinforzo
- Utilizza la verifica fork a breve orizzonte per confrontare i candidati di ricompensa
- Le classifiche delle ricompense sono inaffidabili a bassa competenza della politica
- Le classifiche diventano informative dopo soglie dipendenti dal compito
- Testato su un compito di manipolazione sparsa
- L'implementazione consapevole della fase migliora le prestazioni
Entità
Istituzioni
- arXiv