ARTFEED — Contemporary Art Intelligence

Framework di Apprendimento per Rinforzo Reciproco per LLM Eterogenei

other · 2026-05-11

È stato sviluppato un nuovo framework noto come Apprendimento per Rinforzo Reciproco, che consente a diverse famiglie di modelli linguistici di grandi dimensioni (LLM) di apprendere in modo collaborativo post-addestramento nonostante obiettivi e configurazioni differenti. I componenti chiave di questo sistema includono funzionalità come lo Scambio di Esperienze Condivise (SEE) e l'Allocazione delle Risorse Multi-Worker (MWRA), insieme a un Livello di Eterogeneità del Tokenizer (THL) per una ritokenizzazione efficiente. Inoltre, sono stati introdotti tre strumenti innovativi ispirati all'Ottimizzazione Randomizzata Generalizzata delle Politiche (GRPO): Pooling dei Rollout Peer (PRP), Condivisione dei Vantaggi GRPO Cross-Policy (XGRPO) e Trasferimento a Soglia di Successo (SGT). La ricerca indica che questi metodi richiedono un attento equilibrio tra stabilità e supporto.

Fatti principali

  • Introdotto l'Apprendimento per Rinforzo Reciproco per LLM eterogenei
  • Il framework include i componenti SEE, MWRA e THL
  • THL ritokenizza il testo attraverso vocabolari incompatibili
  • Tre sonde: PRP, XGRPO, SGT
  • Basato sull'algoritmo GRPO
  • L'analisi contestuale-bandit mostra un compromesso stabilità-supporto
  • PRP comporta varianza del rapporto di densità e residuo THL
  • Pubblicato su arXiv con ID 2605.07244

Entità

Istituzioni

  • arXiv

Fonti