Sfruttamento del Modello nell'Apprendimento per Rinforzo: Una Nuova Definizione

other · 2026-05-18

Un nuovo preprint su arXiv (2605.15960) propone una definizione formale di sfruttamento del modello nell'apprendimento per rinforzo, in cui un modello del mondo classifica erroneamente una politica rispetto a un'altra contrariamente all'ambiente reale. Gli autori lo paragonano all'hacking della ricompensa, ma scoprono che la prova di inevitabilità per l'hacking non si trasferisce. Sviluppano una teoria generale che mostra come lo sfruttamento sia inevitabile su grandi insiemi di politiche, e che le condizioni che impediscono l'hacking in insiemi finiti non escludono lo sfruttamento. Viene introdotta una nozione rilassata di sfruttamento con un orizzonte sicuro per evitarlo.

Fatti principali

Il paper arXiv 2605.15960 propone una definizione di sfruttamento del modello nell'apprendimento per rinforzo.
Lo sfruttamento del modello si verifica quando un modello del mondo implica che una politica è strettamente preferita a un'altra, ma l'ambiente reale implica il contrario.
La definizione è paragonata all'hacking della ricompensa, ma la prova di inevitabilità non si trasferisce.
Una teoria generale dimostra che lo sfruttamento è inevitabile su grandi insiemi di politiche.
Le condizioni che garantiscono l'assenza di hacking in insiemi finiti di politiche non escludono lo sfruttamento.
Viene introdotta una nozione rilassata di sfruttamento con un orizzonte sicuro entro il quale può essere evitato.

Sfruttamento del Modello nell'Apprendimento per Rinforzo: Una Nuova Definizione

Fatti principali

Entità

Istituzioni

Fonti