I robot imparano a rilevare e correggere il disallineamento delle ricompense tramite spiegazioni mirate
Un nuovo framework consente ai robot di identificare caratteristiche sottospecificate nell'apprendimento delle ricompense da dimostrazioni e di richiedere attivamente dimostrazioni correttive. Il metodo rileva le caratteristiche che variano ampiamente tra le dimostrazioni come sottospecificate, quindi sollecita spiegazioni mirate per recuperare ricompense disallineate. Ciò affronta le imperfezioni comuni nelle dimostrazioni umane, come caratteristiche sottovalutate a causa del carico cognitivo o della difficoltà fisica. L'approccio sfrutta segnali statistici dalla variabilità delle dimostrazioni per individuare l'ambiguità, migliorando l'allineamento in fase di implementazione. L'articolo è disponibile su arXiv con riferimento 2605.22986.
Fatti principali
- Il framework rileva caratteristiche sottospecificate nell'apprendimento delle ricompense
- Utilizza segnali statistici dalla variabilità delle dimostrazioni
- Richiede attivamente dimostrazioni correttive mirate
- Affronta le imperfezioni delle dimostrazioni umane
- Migliora l'allineamento in fase di implementazione
- Articolo disponibile su arXiv: 2605.22986
- Tipo di annuncio: cross
- Si concentra sul recupero di ricompense disallineate
Entità
Istituzioni
- arXiv