BADIT: Decomporre le Abilità degli LLM per Ridurre l'Interferenza tra Compiti
Un nuovo articolo su arXiv (2605.05676) propone la Basic Abilities Decomposition per il multi-task Instruct-Tuning (BADIT) per affrontare l'interferenza tra compiti nei modelli linguistici di grandi dimensioni. Gli autori mostrano empiricamente che le soluzioni esistenti come la selezione di neuroni specifici per compito e i mixture-of-experts soffrono ancora di interferenza a causa dei parametri condivisi. Scoprono che alcuni parametri sono costantemente co-attivati e si organizzano in gruppi base, analogizzando che gli LLM codificano abilità ortogonali. BADIT decompone queste abilità di base per mitigare i gradienti conflittuali durante l'addestramento multi-task.
Fatti principali
- Articolo arXiv 2605.05676
- Titolo: Decomporre le Abilità di Base dei Grandi Modelli Linguistici: Mitigare l'Interferenza tra Compiti nel Multi-Task Instruct-Tuning
- Propone BADIT (Basic Abilities Decomposition per il multi-task Instruct-Tuning)
- L'interferenza tra compiti deriva da gradienti conflittuali su parametri condivisi
- Metodi esistenti: selezione di neuroni specifici per compito, mixture-of-experts
- Risultato empirico: alcuni parametri sono costantemente co-attivati
- I parametri co-attivati formano gruppi base
- Analogia: gli LLM codificano abilità ortogonali
Entità
Istituzioni
- arXiv