L'ordinamento dei dati nel pre-addestramento dei LLM influisce sulla conoscenza temporale

ai-technology · 2026-05-23

Un nuovo studio di arXiv (2605.22769) indaga come l'ordine dei dati di addestramento influisca sull'ancoraggio temporale dei grandi modelli linguistici (LLM). I ricercatori hanno introdotto un benchmark di oltre 7.000 domande temporalmente ancorate per valutare se i modelli associano correttamente i fatti ai loro periodi temporali. Hanno pre-addestrato modelli con 6 miliardi di parametri su snapshot di Common Crawl ordinati temporalmente e li hanno confrontati con il pre-addestramento standard mescolato. I risultati hanno mostrato che i modelli addestrati sequenzialmente eguagliavano i baselines mescolati nella comprensione linguistica generale, pur esibendo una conoscenza più aggiornata e temporalmente precisa. Il lavoro evidenzia l'importanza della temporalità dei dati nel pre-addestramento dei LLM.

Fatti principali

Il paper arXiv 2605.22769 studia l'impatto della temporalità dei dati nel pre-addestramento dei LLM.
Creato un benchmark di oltre 7.000 domande temporalmente ancorate.
Modelli con 6 miliardi di parametri pre-addestrati su snapshot di Common Crawl ordinati temporalmente.
I modelli addestrati sequenzialmente hanno eguagliato i baselines mescolati nella comprensione linguistica generale.
L'addestramento sequenziale ha portato a una conoscenza più aggiornata e temporalmente precisa.
Il pre-addestramento standard mescolato congela la conoscenza al momento dell'addestramento.
L'ancoraggio temporale dei LLM rimane poco compreso.
Il protocollo di valutazione consente l'analisi delle associazioni fatto-periodo temporale.

L'ordinamento dei dati nel pre-addestramento dei LLM influisce sulla conoscenza temporale

Fatti principali

Entità

Istituzioni

Fonti