Il Midtraining del Model Spec Migliora la Generalizzazione dell'Allineamento

ai-technology · 2026-05-06

Un nuovo articolo su arXiv (2605.02087) introduce il model spec midtraining (MSM), una tecnica per migliorare come l'addestramento all'allineamento generalizza nei modelli linguistici. Dopo il pre-addestramento ma prima del fine-tuning di allineamento, i modelli vengono addestrati su documenti sintetici che discutono il loro Model Spec, insegnando loro il contenuto dello spec. Questo modella la generalizzazione dai successivi dati dimostrativi. Ad esempio, un modello affinato per esprimere preferenze di formaggio come 'Preferisco il cream cheese al brie' generalizza a valori pro-America quando MSM utilizza uno spec che attribuisce tali preferenze a valori pro-America, mentre uno spec sui valori pro-accessibilità produce risultati diversi. Il fine-tuning di allineamento standard spesso produce una generalizzazione superficiale a causa di dati dimostrativi sottospecificati.

Fatti principali

L'articolo arXiv:2605.02087 introduce il model spec midtraining (MSM).
MSM avviene dopo il pre-addestramento ma prima del fine-tuning di allineamento.
I modelli vengono addestrati su documenti sintetici che discutono il loro Model Spec.
MSM modella la generalizzazione dai successivi dati dimostrativi.
Esempio: le preferenze di formaggio generalizzano a valori pro-America con lo spec appropriato.
Il fine-tuning di allineamento standard può produrre una generalizzazione superficiale.
I dati dimostrativi possono sottospecificare la generalizzazione desiderata.

Il Midtraining del Model Spec Migliora la Generalizzazione dell'Allineamento

Fatti principali

Entità

Istituzioni

Fonti