L'Addestramento Allineato al Calcolo Migliora le Prestazioni dei LLM in Fase di Test
Un nuovo paradigma di addestramento chiamato Compute Aligned Training (CAT) affronta il disallineamento tra i metodi standard di post-addestramento e le strategie di inferenza in fase di test per i Large Language Models (LLM). Approcci standard come il Supervised Fine-Tuning (SFT) e il Reinforcement Learning (RL) ottimizzano la verosimiglianza dei singoli campioni sotto una politica di base, che non tiene conto delle procedure di test che aggregano o filtrano gli output. CAT concettualizza le strategie di inferenza come operatori sulla politica di base e deriva funzioni di perdita che massimizzano le prestazioni quando tali strategie vengono applicate. Gli autori implementano queste funzioni di perdita per SFT e RL attraverso strategie di test comuni e forniscono prove empiriche che CAT migliora sostanzialmente lo scaling in fase di test rispetto all'addestramento standard. L'articolo è disponibile su arXiv.
Fatti principali
- 1. Compute Aligned Training (CAT) allinea gli obiettivi di addestramento con le strategie di test.
- 2. I paradigmi standard di post-addestramento SFT e RL ottimizzano la verosimiglianza dei singoli campioni, disallineati con le procedure di test.
- 3. CAT concettualizza le strategie di inferenza come operatori sulla politica di base.
- 4. Vengono derivate nuove funzioni di perdita per SFT e RL attraverso strategie di test comuni.
- 5. Prove empiriche mostrano che CAT migliora sostanzialmente lo scaling in fase di test rispetto all'addestramento standard.
- 6. L'articolo è disponibile su arXiv.
Entità
Istituzioni
- arXiv