L'entropia incrociata mediana supera la media per la validazione dei modelli linguistici

publication · 2026-05-26

Un recente preprint su arXiv (2605.24667) indica che l'entropia incrociata (CE) media, comunemente utilizzata per validare i modelli linguistici, potrebbe non riflettere accuratamente le prestazioni di un modello durante l'addestramento. I ricercatori evidenziano due casi in cui la CE mediana si allinea meglio con i risultati del compito. Nel caso del fine-tuning supervisionato di Qwen2.5-1.5B sull'apprendimento sintetico di fatti, la CE media aumenta significativamente dopo la fase iniziale di apprendimento, mentre l'accuratezza del richiamo dei fatti rimane stabile. Inoltre, nella distillazione top-K di TinyStories, ridurre K migliora la CE mediana ma peggiora la CE media; lo studente Top-5, nonostante abbia la CE media più bassa, ottiene il miglior punteggio del giudice LLM e supera il suo insegnante in CE mediana. La loro analisi mostra che l'addestramento altera la distribuzione empirica della CE per token, con un K più piccolo nella distillazione top-K che crea una distribuzione che abbassa la CE mediana mentre aumenta la media. Questi risultati implicano che la CE mediana potrebbe essere una misura più affidabile per valutare la qualità dei modelli linguistici.

Fatti principali

L'entropia incrociata media è la metrica di validazione standard per i modelli linguistici.
La CE media può non riuscire a tracciare la qualità del modello durante l'addestramento.
Due scenari esaminati: SFT di Qwen2.5-1.5B sull'apprendimento sintetico di fatti e distillazione top-K su TinyStories.
Nel SFT di Qwen2.5-1.5B, la CE media aumenta dopo l'apprendimento iniziale mentre l'accuratezza del richiamo dei fatti rimane alta.
Nella distillazione top-K su TinyStories, diminuire K migliora la CE mediana ma peggiora la CE media.
Lo studente Top-5 ha il punteggio più alto del giudice LLM e supera l'insegnante in CE mediana nonostante la peggiore CE media.
La CE mediana è correlata più strettamente alle prestazioni del compito rispetto alla CE media in entrambi i casi.
L'addestramento modella la distribuzione empirica della CE per token.

L'entropia incrociata mediana supera la media per la validazione dei modelli linguistici

Fatti principali

Entità

Istituzioni

Fonti