ODRPO: Decomposizioni Ordinali per un'ottimizzazione robusta delle politiche nell'allineamento dei LLM
Un nuovo metodo chiamato Decomposizione Ordinale per l'Ottimizzazione Robusta delle Politiche (ODRPO) affronta il rumore delle ricompense nell'Apprendimento per Rinforzo dal Feedback dell'IA (RLAIF) per i Grandi Modelli Linguistici (LLM). RLAIF utilizza auto-valutatori basati su LLM per fornire ricompense discrete a più livelli (ad esempio, rubriche da 1 a 10) per domini non verificabili come la risposta a domande a lungo termine e l'istruzione aperta. Tuttavia, questi auto-valutatori sono intrinsecamente stocastici a causa della sensibilità ai prompt e della casualità del campionamento, che possono corrompere stimatori di vantaggio standard come GRPO e MaxRL. Campioni di ricompensa rumorosi distorcono le statistiche di normalizzazione e degradano il segnale di apprendimento globale. Sebbene campionare più ricompense e adottare il voto di maggioranza riduca il rumore, è computazionalmente costoso. ODRPO decompone le ricompense ordinali per migliorare la robustezza senza calcoli pesanti. L'articolo è disponibile su arXiv con ID 2605.12667.
Fatti principali
- ODRPO sta per Decomposizione Ordinale per l'Ottimizzazione Robusta delle Politiche.
- Il metodo mira al rumore delle ricompense nell'Apprendimento per Rinforzo dal Feedback dell'IA (RLAIF).
- RLAIF è utilizzato per domini non verificabili come la risposta a domande a lungo termine.
- Gli auto-valutatori forniscono ricompense discrete a più livelli (ad esempio, rubriche da 1 a 10).
- La stocasticità deriva dalla sensibilità ai prompt e dalla casualità del campionamento.
- Le ricompense rumorose corrompono stimatori di vantaggio standard come GRPO e MaxRL.
- Il voto di maggioranza riduce il rumore ma è computazionalmente costoso.
- L'articolo è su arXiv con ID 2605.12667.
Entità
Istituzioni
- arXiv