RLAAR: Il Curriculum RL Riduce il Problema del Perdere il Filo nella Conversazione nei LLM
Un nuovo framework chiamato RLAAR (Reinforcement Learning with Verifiable Accuracy and Abstention Rewards) affronta il problema del Lost-in-Conversation (LiC) nei modelli linguistici di grandi dimensioni, dove le prestazioni degradano man mano che le informazioni vengono rivelate attraverso più turni. L'approccio utilizza un curriculum basato sulla competenza che aumenta gradualmente la difficoltà del dialogo, combinato con un sistema di ricompense miste che incoraggia risposte corrette e astensione informata quando le domande sono irrisolvibili. RLAAR impiega rollout multi-turno on-policy per addestrare i modelli a bilanciare la risoluzione dei problemi con l'astensione, riducendo le risposte premature. Il lavoro è motivato dai progressi nel Reinforcement Learning with Verifiable Rewards (RLVR) e mira a migliorare l'affidabilità nelle conversazioni multi-turno.
Fatti principali
- 1. RLAAR sta per Reinforcement Learning with Verifiable Accuracy and Abstention Rewards.
- 2. Affronta il problema del Lost-in-Conversation (LiC) nei modelli linguistici di grandi dimensioni.
- 3. Il framework utilizza un curriculum basato sulla competenza che aumenta gradualmente la difficoltà del dialogo.
- 4. Impiega un sistema di ricompense miste per risposte corrette e astensione.
- 5. Vengono utilizzati rollout multi-turno on-policy per l'addestramento.
- 6. L'obiettivo è ridurre il comportamento di risposta prematura.
- 7. Il lavoro è motivato dai progressi in RLVR.
- 8. L'articolo è disponibile su arXiv con ID 2510.18731.
Entità
—