I modelli linguistici di IA mostrano una transizione di fase nascosta nella veridicità
Un nuovo studio da arXiv rivela una transizione di fase nei grandi modelli linguistici in cui ragionamento e veridicità passano dall'anticorrelazione alla cooperazione a una scala critica di circa 3,5 miliardi di parametri. I ricercatori hanno misurato l'accoppiamento in 63 modelli base di 16 famiglie, scoprendo che al di sotto della soglia critica le capacità sono in conflitto, mentre al di sopra si allineano. Il punto di transizione varia in base all'architettura, alla cura dei dati e alla ricetta di addestramento. In particolare, l'addestramento curato ha eliminato il calo di accoppiamento nei modelli Qwen, Gemma-4 ha raggiunto un alto accoppiamento tramite distillazione, e Phi ha eguagliato modelli più grandi solo con la cura dei dati. La normalizzazione della larghezza ha eliminato l'anticorrelazione in tutte le famiglie testate.
Fatti principali
- Transizione di fase nei LLM a ~3,5 miliardi di parametri
- Testati 63 modelli base di 16 famiglie
- Ragionamento e veridicità sono anticorrelati al di sotto della scala critica
- Architettura, cura dei dati e ricetta di addestramento spostano la scala critica
- L'addestramento curato ha migliorato l'accoppiamento di Qwen da 0,025 a 0,830
- Gemma-4 a 4B raggiunge un accoppiamento di 0,871
- Phi a 1B eguaglia l'accoppiamento di modelli addestrati sul web a 10B
- La normalizzazione della larghezza elimina l'anticorrelazione
Entità
Istituzioni
- arXiv