Soft-TransFormers per l'Apprendimento Continuo
Soft-TransFormers per l'Apprendimento Continuo
Fatti principali
- Soft-TransFormers (Soft-TF) è un framework efficiente in termini di parametri per l'apprendimento continuo.
- È ispirato dall'Ipotesi del Biglietto Vincente Ben Inizializzato (WLTH).
- Soft-TF utilizza sottoreti morbide e a valori reali su un Transformer pre-addestrato congelato.
- Apprende maschere moltiplicative specifiche per compito applicate alle proiezioni di key, query, value e output nell'auto-attenzione.
- Le maschere consentono un adattamento fluido e stabile del compito preservando rappresentazioni condivise.
- Un meccanismo leggero di doppio prompt mantiene la ritenzione della conoscenza e mitiga l'Oblio Catastrofico (CF).
- Soft-TF raggiunge prestazioni all'avanguardia su molteplici benchmark di apprendimento continuo.
- Supera le baseline basate su prompt, adattatori e stile LoRA con parametri aggiuntivi minimi.
Entità
—