Framework di Apprendimento per Rinforzo Reciproco per LLM Eterogenei

other · 2026-05-11

È stato sviluppato un nuovo framework noto come Apprendimento per Rinforzo Reciproco, che consente a diverse famiglie di modelli linguistici di grandi dimensioni (LLM) di apprendere in modo collaborativo post-addestramento nonostante obiettivi e configurazioni differenti. I componenti chiave di questo sistema includono funzionalità come lo Scambio di Esperienze Condivise (SEE) e l'Allocazione delle Risorse Multi-Worker (MWRA), insieme a un Livello di Eterogeneità del Tokenizer (THL) per una ritokenizzazione efficiente. Inoltre, sono stati introdotti tre strumenti innovativi ispirati all'Ottimizzazione Randomizzata Generalizzata delle Politiche (GRPO): Pooling dei Rollout Peer (PRP), Condivisione dei Vantaggi GRPO Cross-Policy (XGRPO) e Trasferimento a Soglia di Successo (SGT). La ricerca indica che questi metodi richiedono un attento equilibrio tra stabilità e supporto.

Fatti principali

Introdotto l'Apprendimento per Rinforzo Reciproco per LLM eterogenei
Il framework include i componenti SEE, MWRA e THL
THL ritokenizza il testo attraverso vocabolari incompatibili
Tre sonde: PRP, XGRPO, SGT
Basato sull'algoritmo GRPO
L'analisi contestuale-bandit mostra un compromesso stabilità-supporto
PRP comporta varianza del rapporto di densità e residuo THL
Pubblicato su arXiv con ID 2605.07244

Framework di Apprendimento per Rinforzo Reciproco per LLM Eterogenei

Fatti principali

Entità

Istituzioni

Fonti