GAC: Miscelazione Adattiva per il Post-Training Ibrido SFT-RL

ai-technology · 2026-05-27

I ricercatori propongono GAC, un controller sensibile al rumore per il post-training ibrido che miscela adattivamente i segnali di supervised fine-tuning e reinforcement learning. Il metodo stima la varianza del gradiente e il disaccordo tra i due segnali per calcolare un peso di miscelazione dinamico, con smoothing, guida a priori e aggiornamenti limitati. Esperimenti su benchmark di matematica, codice, scienza e logica mostrano miglioramenti consistenti rispetto a basi fisse e basate su regole, specialmente a scale di modello più grandi, con un overhead di training inferiore all'1%.

Fatti principali

GAC sta per miscelazione adattiva sensibile al rumore per il post-training ibrido SFT-RL.
Gli schemi di miscelazione fissi non possono adattarsi quando il rumore relativo dei segnali cambia.
GAC deriva il peso di miscelazione adattivo da stime online della varianza del gradiente e del disaccordo.
Il metodo aggiunge smoothing, guida a priori e aggiornamenti limitati.
Riutilizza i tensori di training esistenti.
Esperimenti su benchmark di matematica, codice, scienza e logica.
Miglioramenti consistenti rispetto a forti basi fisse e basate su regole.
Maggiori guadagni a scale di modello più grandi con un overhead di training inferiore all'1%.

GAC: Miscelazione Adattiva per il Post-Training Ibrido SFT-RL

Fatti principali

Entità

Istituzioni

Fonti