Fusione di Modelli: Combinare Reti Neurali nello Spazio dei Pesi
Una nuova tesi su arXiv (2605.01580) propone la fusione di modelli come alternativa all'addestramento di reti neurali separate. L'approccio combina reti addestrate indipendentemente direttamente nello spazio dei pesi, senza richiedere i dati di addestramento originali o un'ottimizzazione estesa. Nel contesto a singolo compito, la tesi introduce C$^2$M$^3$, un algoritmo di fusione ciclo-consistente basato sull'ottimizzazione di Frank-Wolfe che allinea più reti in uno spazio parametrico condiviso. Per contesti multi-compito, in cui i modelli sono affinati a partire da un'inizializzazione comune, viene sviluppato un quadro teorico. Il lavoro sfida il paradigma convenzionale di trattare i modelli come artefatti isolati.
Fatti principali
- Tesi su arXiv con ID 2605.01580
- Propone la fusione di modelli come paradigma alternativo
- Combina reti neurali direttamente nello spazio dei pesi
- Non richiede accesso ai dati di addestramento originali
- Introduce l'algoritmo C$^2$M$^3$ per la fusione a singolo compito
- C$^2$M$^3$ utilizza l'ottimizzazione di Frank-Wolfe
- Copre sia i regimi a singolo compito che multi-compito
- Il contesto multi-compito presuppone un'inizializzazione pre-addestrata comune
Entità
Istituzioni
- arXiv