Fusione di Modelli Bayesiana: Un Framework di Ottimizzazione a Due Livelli
Una recente pubblicazione su arXiv presenta il Bayesian Model Merging (BMM), una strategia di ottimizzazione a due livelli progettata per integrare vari modelli esperti specifici per compiti in un unico modello coeso senza la necessità di un riaddestramento congiunto. Il livello interno affronta la fusione attraverso una regressione bayesiana basata sull'attivazione, sfruttando un prior robusto da un modello ancora, che si traduce in una soluzione in forma chiusa. Nel frattempo, il livello esterno impiega l'ottimizzazione bayesiana per esplorare globalmente gli iperparametri specifici per ciascun modulo. Questo framework affronta efficacemente due significativi svantaggi delle tecniche attuali: la trascuratezza del bias induttivo dei modelli ancora e la dipendenza da iperparametri uniformi tra diversi moduli di rete.
Fatti principali
- L'articolo è su arXiv con ID 2605.12843
- Il tipo di annuncio è cross
- BMM è un framework di ottimizzazione a due livelli plug-and-play
- Il livello interno utilizza la regressione bayesiana basata sull'attivazione con prior del modello ancora
- Il livello esterno utilizza l'ottimizzazione bayesiana per iperparametri specifici del modulo
- Affronta le limitazioni dei metodi esistenti di fusione di modelli
- Elimina la necessità di riaddestramento congiunto
- Offre un'alternativa pratica all'apprendimento multi-task
Entità
Istituzioni
- arXiv