ARTFEED — Contemporary Art Intelligence

ODRPO: Decomposizioni Ordinali per un'ottimizzazione robusta delle politiche nell'allineamento dei LLM

ai-technology · 2026-05-14

Un nuovo metodo chiamato Decomposizione Ordinale per l'Ottimizzazione Robusta delle Politiche (ODRPO) affronta il rumore delle ricompense nell'Apprendimento per Rinforzo dal Feedback dell'IA (RLAIF) per i Grandi Modelli Linguistici (LLM). RLAIF utilizza auto-valutatori basati su LLM per fornire ricompense discrete a più livelli (ad esempio, rubriche da 1 a 10) per domini non verificabili come la risposta a domande a lungo termine e l'istruzione aperta. Tuttavia, questi auto-valutatori sono intrinsecamente stocastici a causa della sensibilità ai prompt e della casualità del campionamento, che possono corrompere stimatori di vantaggio standard come GRPO e MaxRL. Campioni di ricompensa rumorosi distorcono le statistiche di normalizzazione e degradano il segnale di apprendimento globale. Sebbene campionare più ricompense e adottare il voto di maggioranza riduca il rumore, è computazionalmente costoso. ODRPO decompone le ricompense ordinali per migliorare la robustezza senza calcoli pesanti. L'articolo è disponibile su arXiv con ID 2605.12667.

Fatti principali

  • ODRPO sta per Decomposizione Ordinale per l'Ottimizzazione Robusta delle Politiche.
  • Il metodo mira al rumore delle ricompense nell'Apprendimento per Rinforzo dal Feedback dell'IA (RLAIF).
  • RLAIF è utilizzato per domini non verificabili come la risposta a domande a lungo termine.
  • Gli auto-valutatori forniscono ricompense discrete a più livelli (ad esempio, rubriche da 1 a 10).
  • La stocasticità deriva dalla sensibilità ai prompt e dalla casualità del campionamento.
  • Le ricompense rumorose corrompono stimatori di vantaggio standard come GRPO e MaxRL.
  • Il voto di maggioranza riduce il rumore ma è computazionalmente costoso.
  • L'articolo è su arXiv con ID 2605.12667.

Entità

Istituzioni

  • arXiv

Fonti