Apprendimento per Rinforzo Inverso per Agenti in Apprendimento
Un nuovo preprint su arXiv (2605.09217) formalizza il problema di inferire le preferenze dal comportamento di un agente in apprendimento, andando oltre il classico apprendimento per rinforzo inverso (IRL) che assume un comportamento umano ottimale. Gli autori modellano l'agente come senza rimpianto o convergente a una politica di Boltzmann ottimale nel tempo. Stabiliscono garanzie teoriche per algoritmi di apprendimento delle preferenze in ciascun contesto, affrontando i casi in cui l'umano è inizialmente subottimale. Il lavoro mira a migliorare l'allineamento dell'IA consentendo ai sistemi di comprendere le preferenze umane in evoluzione.
Fatti principali
- arXiv:2605.09217
- L'apprendimento per rinforzo inverso (IRL) assume che gli umani siano approssimativamente ottimali
- L'articolo formalizza l'apprendimento delle preferenze di un agente in apprendimento
- Un predittore osserva un apprendista che agisce online
- L'apprendista è modellato come senza rimpianto o convergente a una politica di Boltzmann ottimale
- Vengono stabilite garanzie teoriche per vari algoritmi di apprendimento delle preferenze
- L'obiettivo è inferire la funzione di ricompensa sottostante che viene ottimizzata
- L'umano può imparare ad agire in modo ottimale in un ambiente
Entità
Istituzioni
- arXiv