ARTFEED — Contemporary Art Intelligence

GAC: Miscelazione Adattiva per il Post-Training Ibrido SFT-RL

ai-technology · 2026-05-27

I ricercatori propongono GAC, un controller sensibile al rumore per il post-training ibrido che miscela adattivamente i segnali di supervised fine-tuning e reinforcement learning. Il metodo stima la varianza del gradiente e il disaccordo tra i due segnali per calcolare un peso di miscelazione dinamico, con smoothing, guida a priori e aggiornamenti limitati. Esperimenti su benchmark di matematica, codice, scienza e logica mostrano miglioramenti consistenti rispetto a basi fisse e basate su regole, specialmente a scale di modello più grandi, con un overhead di training inferiore all'1%.

Fatti principali

  • GAC sta per miscelazione adattiva sensibile al rumore per il post-training ibrido SFT-RL.
  • Gli schemi di miscelazione fissi non possono adattarsi quando il rumore relativo dei segnali cambia.
  • GAC deriva il peso di miscelazione adattivo da stime online della varianza del gradiente e del disaccordo.
  • Il metodo aggiunge smoothing, guida a priori e aggiornamenti limitati.
  • Riutilizza i tensori di training esistenti.
  • Esperimenti su benchmark di matematica, codice, scienza e logica.
  • Miglioramenti consistenti rispetto a forti basi fisse e basate su regole.
  • Maggiori guadagni a scale di modello più grandi con un overhead di training inferiore all'1%.

Entità

Istituzioni

  • arXiv

Fonti