La ricerca rivela come insegnare nuove abilità ai modelli di IA senza dimenticare quelle precedenti
Uno studio recente esplora metodi per insegnare nuove capacità ai grandi modelli multimodali preservando le loro conoscenze esistenti. I ricercatori si sono concentrati sul fine-tuning sequenziale su cinque abilità specifiche e hanno monitorato le prestazioni complessive su otto benchmark diversi. L'indagine ha coinvolto tre famiglie di modelli uniche. Sorprendentemente, è stato scoperto che le prestazioni su compiti precedentemente esclusi potevano recuperare parzialmente dopo il fine-tuning su un'abilità diversa, collegata a un cambiamento notevole nella distribuzione dei token di output del modello. Una semplice sonda di bias di conteggio ha indicato che questo cambiamento si correla con la dimenticanza. Lo studio ha proposto due strategie di tuning efficaci che migliorano l'apprendimento riducendo al minimo la deriva dannosa. Il primo metodo regola solo gli strati di proiezione self-attention, ottenendo un guadagno di apprendimento di +24,9 e una riduzione di -0,6 nella dimenticanza dei compiti esclusi. Il secondo metodo modifica solo le proiezioni MLP Gate e Up mantenendo statica la proiezione Down, raggiungendo rispettivamente guadagni di +30,5 e -2,1. Entrambe le strategie hanno superato significativamente il fine-tuning completo. Questa ricerca è stata pubblicata su arXiv con l'identificatore 2510.08564v2, classificata come annuncio 'replace'.
Fatti principali
- Lo studio si concentra sull'insegnamento di nuove abilità ai grandi modelli multimodali senza dimenticanza catastrofica.
- I ricercatori hanno utilizzato il fine-tuning sequenziale su cinque abilità target.
- La capacità generale è stata monitorata su otto benchmark esclusi.
- Sono state analizzate tre diverse famiglie di modelli.
- Le prestazioni perse sui compiti esclusi possono recuperare parzialmente quando si effettua il tuning su un'abilità diversa.
- È stato identificato un cambiamento nella distribuzione dei token di output come fattore chiave.
- Una sonda di bias di conteggio ha mostrato che il cambiamento co-varia con la dimenticanza.
- Sono state identificate due ricette di tuning efficaci: aggiornare solo gli strati SA Proj. e aggiornare solo MLP Gate&Up mantenendo congelata la proiezione Down.
Entità
Istituzioni
- arXiv