L'Addestramento Allineato al Calcolo Migliora le Prestazioni dei LLM in Fase di Test

ai-technology · 2026-04-30

Un nuovo paradigma di addestramento chiamato Compute Aligned Training (CAT) affronta il disallineamento tra i metodi standard di post-addestramento e le strategie di inferenza in fase di test per i Large Language Models (LLM). Approcci standard come il Supervised Fine-Tuning (SFT) e il Reinforcement Learning (RL) ottimizzano la verosimiglianza dei singoli campioni sotto una politica di base, che non tiene conto delle procedure di test che aggregano o filtrano gli output. CAT concettualizza le strategie di inferenza come operatori sulla politica di base e deriva funzioni di perdita che massimizzano le prestazioni quando tali strategie vengono applicate. Gli autori implementano queste funzioni di perdita per SFT e RL attraverso strategie di test comuni e forniscono prove empiriche che CAT migliora sostanzialmente lo scaling in fase di test rispetto all'addestramento standard. L'articolo è disponibile su arXiv.

Fatti principali

1. Compute Aligned Training (CAT) allinea gli obiettivi di addestramento con le strategie di test.
2. I paradigmi standard di post-addestramento SFT e RL ottimizzano la verosimiglianza dei singoli campioni, disallineati con le procedure di test.
3. CAT concettualizza le strategie di inferenza come operatori sulla politica di base.
4. Vengono derivate nuove funzioni di perdita per SFT e RL attraverso strategie di test comuni.
5. Prove empiriche mostrano che CAT migliora sostanzialmente lo scaling in fase di test rispetto all'addestramento standard.
6. L'articolo è disponibile su arXiv.

L'Addestramento Allineato al Calcolo Migliora le Prestazioni dei LLM in Fase di Test

Fatti principali

Entità

Istituzioni

Fonti