Belief-Aware GSAC migliora la guida autonoma in condizioni di osservabilità parziale
Un recente articolo pubblicato su arXiv (2605.26155) presenta Belief-Aware Guided Soft Actor-Critic (BA-GSAC), una tecnica che regola dinamicamente la distillazione della conoscenza da un insegnante completo a uno studente con osservazioni limitate in scenari di guida autonoma. A differenza del GSAC tradizionale, che utilizza un coefficiente di distillazione costante lambda, BA-GSAC modifica lambda in base al disaccordo dell'insieme, fornendo un quadro per esplorare l'efficacia della guida adattiva. I test condotti su Highway-Env a tre livelli di difficoltà POMDP hanno valutato cinque approcci: lambda fisso (0.01, 0.1), adattivo, decadimento lineare e SAC standard. I risultati iniziali con un singolo seed indicano vantaggi in condizioni di osservabilità parziale lieve e moderata, ma in caso di occlusione grave (valutata con 3 seed per tutti i metodi), il coefficiente adattivo scende a lambda_min in circa 3.000 passi, a causa di un effetto di cecità all'osservabilità.
Fatti principali
- BA-GSAC modula il coefficiente di distillazione lambda tramite il disaccordo dell'insieme.
- Cinque strategie testate: lambda fisso (0.01, 0.1), adattivo, decadimento lineare, SAC vanilla.
- Esperimenti condotti su Highway-Env a tre livelli di difficoltà POMDP.
- In caso di occlusione grave, il coefficiente adattivo collassa a lambda_min in circa 3K passi.
- Cecità all'osservabilità: l'insieme prevede osservazioni parziali, portando a basso disaccordo nonostante l'incertezza.
- Risultati preliminari con singolo seed mostrano benefici in condizioni di osservabilità parziale lieve e moderata.
- Lo studio utilizza 3 seed per tutti i metodi in caso di occlusione grave.
Entità
Istituzioni
- arXiv