Fusione di Modelli: Combinare Reti Neurali nello Spazio dei Pesi

publication · 2026-05-06

Una nuova tesi su arXiv (2605.01580) propone la fusione di modelli come alternativa all'addestramento di reti neurali separate. L'approccio combina reti addestrate indipendentemente direttamente nello spazio dei pesi, senza richiedere i dati di addestramento originali o un'ottimizzazione estesa. Nel contesto a singolo compito, la tesi introduce C$^2$M$^3$, un algoritmo di fusione ciclo-consistente basato sull'ottimizzazione di Frank-Wolfe che allinea più reti in uno spazio parametrico condiviso. Per contesti multi-compito, in cui i modelli sono affinati a partire da un'inizializzazione comune, viene sviluppato un quadro teorico. Il lavoro sfida il paradigma convenzionale di trattare i modelli come artefatti isolati.

Fatti principali

Tesi su arXiv con ID 2605.01580
Propone la fusione di modelli come paradigma alternativo
Combina reti neurali direttamente nello spazio dei pesi
Non richiede accesso ai dati di addestramento originali
Introduce l'algoritmo C$^2$M$^3$ per la fusione a singolo compito
C$^2$M$^3$ utilizza l'ottimizzazione di Frank-Wolfe
Copre sia i regimi a singolo compito che multi-compito
Il contesto multi-compito presuppone un'inizializzazione pre-addestrata comune

Fusione di Modelli: Combinare Reti Neurali nello Spazio dei Pesi

Fatti principali

Entità

Istituzioni

Fonti