DiDi-Merging: Framework Slim per il Merging Dinamico di Modelli
Un nuovo framework chiamato DiDi-Merging è stato introdotto dai ricercatori: un approccio snello al merging dinamico di modelli che utilizza l'allocazione differenziabile dei ranghi per bilanciare efficacemente i parametri condivisi e quelli esperti. Questa innovazione supera le carenze delle attuali tecniche di merging dinamico, che utilizzano modelli completamente condivisi con pochi esperti o assegnano troppa capacità agli esperti. DiDi-Merging raggiunge prestazioni paragonabili ai precedenti baselines dinamici con solo 1,24 volte i parametri di un singolo modello fine-tuned e li supera a 1,4 volte, risultando significativamente più efficiente rispetto ai metodi che richiedono oltre 2 volte i parametri. Inoltre, il framework presenta un passaggio di raffinamento senza dati per migliorare la fedeltà del compito, consentendo la combinazione efficace di esperti attraverso vari compiti senza la necessità di addestramento congiunto o accesso ai dati originali.
Fatti principali
- DiDi-Merging è un framework snello per il merging dinamico.
- Utilizza l'allocazione differenziabile dei ranghi per bilanciare parametri condivisi ed esperti.
- Eguaglia i precedenti baselines dinamici con 1,24x i parametri di un singolo modello fine-tuned.
- Supera i baselines con 1,4x i parametri.
- I metodi esistenti richiedono oltre 2x i parametri.
- Introduce un passaggio di raffinamento senza dati.
- Il merging dei modelli consente il riutilizzo di modelli fine-tuned senza addestramento congiunto o dati originali.
- Il merging dinamico attiva selettivamente i parametri rilevanti per il compito.
Entità
—