DualOpt: Ottimizzazione Disaccoppiata per Addestramento da Zero e Fine-Tuning
I ricercatori propongono DualOpt, un nuovo approccio di ottimizzazione che disaccoppia le tecniche per addestrare reti neurali da zero rispetto al fine-tuning di modelli pre-addestrati. Per l'addestramento da zero, viene introdotto un decadimento del peso a livello di layer in tempo reale per migliorare la convergenza e la generalizzazione. Per il fine-tuning, viene integrato un rollback dei pesi nell'ottimizzatore per prevenire il dimenticanza catastrofica. Il metodo affronta le esigenze distinte di questi due paradigmi, che gli ottimizzatori esistenti non riescono a soddisfare completamente. L'articolo è disponibile su arXiv con riferimento 2604.22838.
Fatti principali
- 1. DualOpt disaccoppia l'ottimizzazione per addestramento da zero e fine-tuning.
- 2. Il decadimento del peso a livello di layer in tempo reale migliora l'addestramento da zero.
- 3. Il rollback dei pesi previene il dimenticanza catastrofica nel fine-tuning.
- 4. Gli ottimizzatori esistenti non affrontano completamente i paradigmi di addestramento distinti.
- 5. Articolo disponibile su arXiv: 2604.22838.
Entità
Istituzioni
- arXiv