Il Metodo degli Sottospazi Ortogonali Migliora la Fusione dei Modelli LoRA
I ricercatori hanno identificato una causa di degrado delle prestazioni durante la fusione di modelli linguistici di grandi dimensioni ottimizzati con adattamento a basso rango (LoRA). Propongono Sottospazi Ortogonali per una Fusione Robusta dei Modelli (OSRM), che vincola il sottospazio LoRA prima dell'ottimizzazione per prevenire interferenze tra i compiti. OSRM si integra con gli algoritmi di fusione esistenti ed è stato testato su otto dataset.
Fatti principali
- L'ottimizzazione di LLM per singoli compiti è costosa in termini di implementazione e archiviazione.
- La fusione di modelli combina più modelli specifici per compito in un unico modello multi-compito senza addestramento aggiuntivo.
- I metodi di fusione esistenti spesso falliscono per modelli ottimizzati con LoRA a causa del degrado delle prestazioni.
- Il problema deriva dall'interazione tra i parametri del modello e le distribuzioni dei dati.
- OSRM vincola il sottospazio LoRA prima dell'ottimizzazione.
- OSRM riduce le interferenze indesiderate tra i compiti.
- OSRM può integrarsi con la maggior parte degli algoritmi di fusione esistenti.
- Gli esperimenti sono stati condotti su otto dataset.
Entità
—