Framework di Apprendimento per Rinforzo Reciproco per LLM Eterogenei
È stato sviluppato un nuovo framework noto come Apprendimento per Rinforzo Reciproco, che consente a diverse famiglie di modelli linguistici di grandi dimensioni (LLM) di apprendere in modo collaborativo post-addestramento nonostante obiettivi e configurazioni differenti. I componenti chiave di questo sistema includono funzionalità come lo Scambio di Esperienze Condivise (SEE) e l'Allocazione delle Risorse Multi-Worker (MWRA), insieme a un Livello di Eterogeneità del Tokenizer (THL) per una ritokenizzazione efficiente. Inoltre, sono stati introdotti tre strumenti innovativi ispirati all'Ottimizzazione Randomizzata Generalizzata delle Politiche (GRPO): Pooling dei Rollout Peer (PRP), Condivisione dei Vantaggi GRPO Cross-Policy (XGRPO) e Trasferimento a Soglia di Successo (SGT). La ricerca indica che questi metodi richiedono un attento equilibrio tra stabilità e supporto.
Fatti principali
- Introdotto l'Apprendimento per Rinforzo Reciproco per LLM eterogenei
- Il framework include i componenti SEE, MWRA e THL
- THL ritokenizza il testo attraverso vocabolari incompatibili
- Tre sonde: PRP, XGRPO, SGT
- Basato sull'algoritmo GRPO
- L'analisi contestuale-bandit mostra un compromesso stabilità-supporto
- PRP comporta varianza del rapporto di densità e residuo THL
- Pubblicato su arXiv con ID 2605.07244
Entità
Istituzioni
- arXiv