DualOpt: Ottimizzazione Disaccoppiata per Addestramento da Zero e Fine-Tuning

ai-technology · 2026-04-29

I ricercatori propongono DualOpt, un nuovo approccio di ottimizzazione che disaccoppia le tecniche per addestrare reti neurali da zero rispetto al fine-tuning di modelli pre-addestrati. Per l'addestramento da zero, viene introdotto un decadimento del peso a livello di layer in tempo reale per migliorare la convergenza e la generalizzazione. Per il fine-tuning, viene integrato un rollback dei pesi nell'ottimizzatore per prevenire il dimenticanza catastrofica. Il metodo affronta le esigenze distinte di questi due paradigmi, che gli ottimizzatori esistenti non riescono a soddisfare completamente. L'articolo è disponibile su arXiv con riferimento 2604.22838.

Fatti principali

1. DualOpt disaccoppia l'ottimizzazione per addestramento da zero e fine-tuning.
2. Il decadimento del peso a livello di layer in tempo reale migliora l'addestramento da zero.
3. Il rollback dei pesi previene il dimenticanza catastrofica nel fine-tuning.
4. Gli ottimizzatori esistenti non affrontano completamente i paradigmi di addestramento distinti.
5. Articolo disponibile su arXiv: 2604.22838.

DualOpt: Ottimizzazione Disaccoppiata per Addestramento da Zero e Fine-Tuning

Fatti principali

Entità

Istituzioni

Fonti