ReuseRL: La compressione delle abilità migliora la generalizzazione dell'RL agentico

ai-technology · 2026-06-01

Un nuovo framework chiamato ReuseRL è stato sviluppato dai ricercatori, che fonda l'apprendimento per rinforzo agentico sul principio della Lunghezza di Descrizione Minima (MDL). Questo framework crea un dizionario comune di abilità derivato da traiettorie efficaci e impone penalità sui comportamenti unici attraverso un costo di segmentazione. È stato stabilito un limite di generalizzazione PAC-Bayes. I test su ALFWorld, TextWorld-Cooking e Countdown-Stepwise indicano che ReuseRL migliora il successo sia in-distribuzione che fuori-distribuzione rispetto a GRPO standard e ai benchmark basati sulla lunghezza dei round.

Fatti principali

1. ReuseRL fonda l'RL agentico sul principio della Lunghezza di Descrizione Minima (MDL).
2. Estrae un dizionario condiviso di abilità da traiettorie di successo.
3. L'obiettivo RL è aumentato con un costo di segmentazione che penalizza i comportamenti idiosincratici.
4. Viene dimostrato un limite di generalizzazione PAC-Bayes per la penalità di compressione.
5. Valutato su ALFWorld, TextWorld-Cooking e Countdown-Stepwise.
6. Migliora il successo in-distribuzione e fuori-distribuzione rispetto a GRPO vanilla e ai baselines basati sulla lunghezza dei round.
7. Gli agenti basati su grandi modelli linguistici addestrati con RL spesso apprendono scorciatoie fragili e specifiche del compito.
8. L'ipotesi è che gli agenti generalizzino meglio quando le traiettorie di successo sono strutturalmente comprimibili.

ReuseRL: La compressione delle abilità migliora la generalizzazione dell'RL agentico

Fatti principali

Entità

Istituzioni

Fonti