GAC: Miscelazione Adattiva per il Post-Training Ibrido SFT-RL
I ricercatori propongono GAC, un controller sensibile al rumore per il post-training ibrido che miscela adattivamente i segnali di supervised fine-tuning e reinforcement learning. Il metodo stima la varianza del gradiente e il disaccordo tra i due segnali per calcolare un peso di miscelazione dinamico, con smoothing, guida a priori e aggiornamenti limitati. Esperimenti su benchmark di matematica, codice, scienza e logica mostrano miglioramenti consistenti rispetto a basi fisse e basate su regole, specialmente a scale di modello più grandi, con un overhead di training inferiore all'1%.
Fatti principali
- GAC sta per miscelazione adattiva sensibile al rumore per il post-training ibrido SFT-RL.
- Gli schemi di miscelazione fissi non possono adattarsi quando il rumore relativo dei segnali cambia.
- GAC deriva il peso di miscelazione adattivo da stime online della varianza del gradiente e del disaccordo.
- Il metodo aggiunge smoothing, guida a priori e aggiornamenti limitati.
- Riutilizza i tensori di training esistenti.
- Esperimenti su benchmark di matematica, codice, scienza e logica.
- Miglioramenti consistenti rispetto a forti basi fisse e basate su regole.
- Maggiori guadagni a scale di modello più grandi con un overhead di training inferiore all'1%.
Entità
Istituzioni
- arXiv