ReuseRL: La compressione delle abilità migliora la generalizzazione dell'RL agentico
Un nuovo framework chiamato ReuseRL è stato sviluppato dai ricercatori, che fonda l'apprendimento per rinforzo agentico sul principio della Lunghezza di Descrizione Minima (MDL). Questo framework crea un dizionario comune di abilità derivato da traiettorie efficaci e impone penalità sui comportamenti unici attraverso un costo di segmentazione. È stato stabilito un limite di generalizzazione PAC-Bayes. I test su ALFWorld, TextWorld-Cooking e Countdown-Stepwise indicano che ReuseRL migliora il successo sia in-distribuzione che fuori-distribuzione rispetto a GRPO standard e ai benchmark basati sulla lunghezza dei round.
Fatti principali
- 1. ReuseRL fonda l'RL agentico sul principio della Lunghezza di Descrizione Minima (MDL).
- 2. Estrae un dizionario condiviso di abilità da traiettorie di successo.
- 3. L'obiettivo RL è aumentato con un costo di segmentazione che penalizza i comportamenti idiosincratici.
- 4. Viene dimostrato un limite di generalizzazione PAC-Bayes per la penalità di compressione.
- 5. Valutato su ALFWorld, TextWorld-Cooking e Countdown-Stepwise.
- 6. Migliora il successo in-distribuzione e fuori-distribuzione rispetto a GRPO vanilla e ai baselines basati sulla lunghezza dei round.
- 7. Gli agenti basati su grandi modelli linguistici addestrati con RL spesso apprendono scorciatoie fragili e specifiche del compito.
- 8. L'ipotesi è che gli agenti generalizzino meglio quando le traiettorie di successo sono strutturalmente comprimibili.
Entità
Istituzioni
- arXiv