Studio sulla generalizzazione degli obiettivi nell'apprendimento per rinforzo sequenziale
I ricercatori hanno studiato come gli agenti di apprendimento per rinforzo generalizzano gli obiettivi a nuovi ambienti dopo un addestramento sequenziale. Lo studio ha analizzato oltre 100 pipeline di addestramento e valutato il comportamento in più di 250 ambienti fuori distribuzione. I risultati chiave mostrano che le caratteristiche salienti guidano la generalizzazione e che gli obiettivi appresi all'inizio dell'addestramento possono persistere e influenzare l'apprendimento successivo. Per spiegare questi fenomeni, gli autori hanno introdotto i gradienti di policy latenti, un metodo che prevede il comportamento fuori distribuzione simulando l'evoluzione di variabili latenti a bassa dimensionalità durante l'addestramento basato sul raggiungimento di ricompense elevate. La ricerca colma una lacuna nella comprensione del comportamento finalizzato involontario al di fuori della distribuzione di addestramento.
Fatti principali
- arXiv:2605.23565v1
- Studiate oltre 100 pipeline di addestramento sequenziale
- Comportamento valutato in oltre 250 ambienti fuori distribuzione
- Le caratteristiche salienti guidano la generalizzazione
- Gli obiettivi appresi precocemente persistono e influenzano gli obiettivi successivi
- Introdotto il metodo dei gradienti di policy latenti
- Il metodo simula l'evoluzione di variabili latenti a bassa dimensionalità
- Colma la mancanza di una comprensione fondata della generalizzazione fuori distribuzione
Entità
—