AEM: Modulazione Adattiva dell'Entropia per Apprendimento per Rinforzo Agentico Multi-Turno
Un articolo di ricerca presenta AEM (Modulazione Adattiva dell'Entropia), un metodo per l'assegnazione del credito nell'apprendimento per rinforzo (RL) che non richiede supervisione, specificamente per agenti basati su grandi modelli linguistici (LLM). Questa tecnica affronta il problema delle ricompense sparse che riflettono solo i risultati in compiti multi-turno, adattando dinamicamente le dinamiche dell'entropia durante l'addestramento RL, migliorando così l'equilibrio tra esplorazione e sfruttamento. AEM eleva teoricamente l'analisi dell'entropia dal livello dei token al livello delle risposte, minimizzando la varianza del campionamento dei token e gestendo intrinsecamente la deriva dell'entropia con gradienti naturali. Il metodo mira a eliminare la dipendenza da una supervisione intermedia densa, come modelli di ricompensa o segnali ausiliari di auto-supervisione, che spesso non riescono a generalizzare bene in vari compiti e domini. L'articolo è disponibile su arXiv con l'identificatore 2605.00425.
Fatti principali
- 1. AEM è un metodo di assegnazione del credito senza supervisione per RL in agenti LLM.
- 2. Modula adattivamente le dinamiche dell'entropia durante l'addestramento RL.
- 3. Il metodo affronta le ricompense sparse e basate solo sui risultati in compiti multi-turno.
- 4. AEM eleva l'analisi dell'entropia dal livello dei token al livello delle risposte.
- 5. Riduce la varianza del campionamento dei token.
- 6. La deriva dell'entropia sotto gradienti naturali è gestita intrinsecamente.
- 7. L'approccio elimina la necessità di una supervisione intermedia densa.
- 8. Articolo pubblicato su arXiv con ID 2605.00425.
Entità
Istituzioni
- arXiv