Apprendimento per Rinforzo Inverso con Dimostratori Subottimali

other · 2026-06-01

I ricercatori propongono un quadro basato su insiemi di ricompense ammissibili per l'apprendimento per rinforzo inverso (IRL) quando le dimostrazioni provengono da più dimostratori imperfetti con diversi livelli di subottimalità. Invece di assumere un singolo dimostratore ottimale, il metodo codifica la subottimalità dichiarata di ciascun dimostratore come un vincolo lineare e interseca gli insiemi ammissibili tra i dimostratori. L'analisi teorica mostra che l'insieme ammissibile congiunto si restringe monotonicamente con l'aggiunta di dati, e vengono fornite le condizioni per cui un nuovo dimostratore lo restringe strettamente. Sono stabilite due garanzie di recupero per l'insieme di ricompense ottimali reali: una dipende dalla prossimità all'occupazione ottimale, l'altra richiede una copertura sufficiente senza un dimostratore quasi ottimale. Vengono introdotte strategie pratiche per gestire livelli di subottimalità sconosciuti.

Fatti principali

L'IRL tipicamente assume un singolo dimostratore ottimale
Il nuovo quadro gestisce più dimostratori imperfetti con subottimalità eterogenea
Il livello di subottimalità di ciascun dimostratore è codificato come un vincolo lineare
L'insieme ammissibile congiunto si restringe monotonicamente con l'aggiunta di dati
Caratterizzazione esatta di quando un nuovo dimostratore restringe l'insieme
Due garanzie di recupero per l'insieme di ricompense ottimali reali
Una garanzia dipende dalla vicinanza all'occupazione ottimale
L'altra garanzia richiede copertura sufficiente e nessun dimostratore quasi ottimale

Entità

—

Fonti

arXiv cs.AI — 2026-06-01