ARTFEED — Contemporary Art Intelligence

ReuseRL: La compressione delle abilità migliora la generalizzazione dell'RL agentico

ai-technology · 2026-06-01

Un nuovo framework chiamato ReuseRL è stato sviluppato dai ricercatori, che fonda l'apprendimento per rinforzo agentico sul principio della Lunghezza di Descrizione Minima (MDL). Questo framework crea un dizionario comune di abilità derivato da traiettorie efficaci e impone penalità sui comportamenti unici attraverso un costo di segmentazione. È stato stabilito un limite di generalizzazione PAC-Bayes. I test su ALFWorld, TextWorld-Cooking e Countdown-Stepwise indicano che ReuseRL migliora il successo sia in-distribuzione che fuori-distribuzione rispetto a GRPO standard e ai benchmark basati sulla lunghezza dei round.

Fatti principali

  • 1. ReuseRL fonda l'RL agentico sul principio della Lunghezza di Descrizione Minima (MDL).
  • 2. Estrae un dizionario condiviso di abilità da traiettorie di successo.
  • 3. L'obiettivo RL è aumentato con un costo di segmentazione che penalizza i comportamenti idiosincratici.
  • 4. Viene dimostrato un limite di generalizzazione PAC-Bayes per la penalità di compressione.
  • 5. Valutato su ALFWorld, TextWorld-Cooking e Countdown-Stepwise.
  • 6. Migliora il successo in-distribuzione e fuori-distribuzione rispetto a GRPO vanilla e ai baselines basati sulla lunghezza dei round.
  • 7. Gli agenti basati su grandi modelli linguistici addestrati con RL spesso apprendono scorciatoie fragili e specifiche del compito.
  • 8. L'ipotesi è che gli agenti generalizzino meglio quando le traiettorie di successo sono strutturalmente comprimibili.

Entità

Istituzioni

  • arXiv

Fonti