Framework di Allineamento Federato per Modelli Visione-Linguaggio Eterogenei
È stato introdotto un nuovo framework di allineamento federato chiamato MoR (Mixture-of-Rewards) per affrontare le difficoltà associate all'addestramento di Modelli Visione-Linguaggio (VLM) in presenza di significativa diversità di modelli e dati. Questo framework integra GRPO (Group Relative Policy Optimization) con una strategia di Mixture-of-Rewards, facilitando l'addestramento decentralizzato senza la necessità di scambi diretti di parametri o dati. All'interno di MoR, ogni client sviluppa indipendentemente un modello di ricompensa basato su annotazioni di preferenza locali, catturando segnali di valutazione unici e garantendo al contempo la privacy. Questa tecnica è particolarmente rilevante in settori sensibili alla privacy come sanità e finanza, dove l'addestramento centralizzato non è praticabile a causa delle limitazioni nella condivisione dei dati. La ricerca è disponibile su arXiv con identificatore 2605.03426.
Fatti principali
- MoR combina GRPO con Mixture-of-Rewards per VLM eterogenei
- Ogni client addestra localmente un modello di ricompensa da annotazioni di preferenza locali
- Elimina lo scambio diretto di parametri o dati
- Affronta l'estrema eterogeneità di modelli e dati
- Applicabile a domini sensibili alla privacy come sanità e finanza
- Pubblicato su arXiv con identificatore 2605.03426
- Framework di allineamento federato per addestramento decentralizzato
- La collaborazione basata sulle preferenze sostituisce l'aggregazione dei parametri
Entità
Istituzioni
- arXiv