Allineamento Federato delle Preferenze con Prior Gumbel-Softmax
Un nuovo framework, Federated Variational Preference Alignment with Gumbel-Softmax Prior (FedVPA-GP), affronta la sfida di personalizzare i modelli linguistici di grandi dimensioni (LLM) in contesti di apprendimento federato. L'apprendimento federato tradizionale allinea gli LLM utilizzando un singolo modello di ricompensa, che media preferenze contrastanti degli utenti come l'utilità rispetto all'innocuità. Il Variational Preference Learning (VPL) offre personalizzazione ma soffre di collasso posteriore in contesti decentralizzati a causa della scarsità e dell'eterogeneità dei dati locali. FedVPA-GP introduce un Federated Mixture Prior che consente ai clienti di utilizzare la distribuzione aggregata della popolazione come prior dinamico, stabilizzando l'inferenza variazionale. Inoltre, una Orthogonal Loss impone esplicitamente la separazione di preferenze diverse. Il framework mira a disaccoppiare le preferenze senza compromettere la privacy. L'articolo è disponibile su arXiv con identificatore 2605.30873.
Fatti principali
- FedVPA-GP è un framework per l'apprendimento federato personalizzato con LLM.
- L'FL tradizionale allinea gli LLM con un modello di ricompensa monolitico, mediando preferenze contrastanti.
- Il Variational Preference Learning (VPL) offre personalizzazione ma affronta il collasso posteriore in contesti decentralizzati.
- Il collasso posteriore è guidato dalla scarsità e dall'eterogeneità dei dati locali.
- FedVPA-GP introduce un Federated Mixture Prior che utilizza la distribuzione aggregata della popolazione.
- Una Orthogonal Loss impone la separazione di preferenze diverse.
- Il framework preserva la privacy mentre disaccoppia le preferenze.
- L'articolo è pubblicato su arXiv con ID 2605.30873.
Entità
Istituzioni
- arXiv