Framework di Allineamento Federato per Modelli Visione-Linguaggio Eterogenei

ai-technology · 2026-05-07

È stato introdotto un nuovo framework di allineamento federato chiamato MoR (Mixture-of-Rewards) per affrontare le difficoltà associate all'addestramento di Modelli Visione-Linguaggio (VLM) in presenza di significativa diversità di modelli e dati. Questo framework integra GRPO (Group Relative Policy Optimization) con una strategia di Mixture-of-Rewards, facilitando l'addestramento decentralizzato senza la necessità di scambi diretti di parametri o dati. All'interno di MoR, ogni client sviluppa indipendentemente un modello di ricompensa basato su annotazioni di preferenza locali, catturando segnali di valutazione unici e garantendo al contempo la privacy. Questa tecnica è particolarmente rilevante in settori sensibili alla privacy come sanità e finanza, dove l'addestramento centralizzato non è praticabile a causa delle limitazioni nella condivisione dei dati. La ricerca è disponibile su arXiv con identificatore 2605.03426.

Fatti principali

MoR combina GRPO con Mixture-of-Rewards per VLM eterogenei
Ogni client addestra localmente un modello di ricompensa da annotazioni di preferenza locali
Elimina lo scambio diretto di parametri o dati
Affronta l'estrema eterogeneità di modelli e dati
Applicabile a domini sensibili alla privacy come sanità e finanza
Pubblicato su arXiv con identificatore 2605.03426
Framework di allineamento federato per addestramento decentralizzato
La collaborazione basata sulle preferenze sostituisce l'aggregazione dei parametri

Framework di Allineamento Federato per Modelli Visione-Linguaggio Eterogenei

Fatti principali

Entità

Istituzioni

Fonti