ARTFEED — Contemporary Art Intelligence

L'Addestramento Allineato al Calcolo Migliora le Prestazioni dei LLM in Fase di Test

ai-technology · 2026-04-30

Un nuovo paradigma di addestramento chiamato Compute Aligned Training (CAT) affronta il disallineamento tra i metodi standard di post-addestramento e le strategie di inferenza in fase di test per i Large Language Models (LLM). Approcci standard come il Supervised Fine-Tuning (SFT) e il Reinforcement Learning (RL) ottimizzano la verosimiglianza dei singoli campioni sotto una politica di base, che non tiene conto delle procedure di test che aggregano o filtrano gli output. CAT concettualizza le strategie di inferenza come operatori sulla politica di base e deriva funzioni di perdita che massimizzano le prestazioni quando tali strategie vengono applicate. Gli autori implementano queste funzioni di perdita per SFT e RL attraverso strategie di test comuni e forniscono prove empiriche che CAT migliora sostanzialmente lo scaling in fase di test rispetto all'addestramento standard. L'articolo è disponibile su arXiv.

Fatti principali

  • 1. Compute Aligned Training (CAT) allinea gli obiettivi di addestramento con le strategie di test.
  • 2. I paradigmi standard di post-addestramento SFT e RL ottimizzano la verosimiglianza dei singoli campioni, disallineati con le procedure di test.
  • 3. CAT concettualizza le strategie di inferenza come operatori sulla politica di base.
  • 4. Vengono derivate nuove funzioni di perdita per SFT e RL attraverso strategie di test comuni.
  • 5. Prove empiriche mostrano che CAT migliora sostanzialmente lo scaling in fase di test rispetto all'addestramento standard.
  • 6. L'articolo è disponibile su arXiv.

Entità

Istituzioni

  • arXiv

Fonti