L'ordinamento dei dati nel pre-addestramento dei LLM influisce sulla conoscenza temporale
Un nuovo studio di arXiv (2605.22769) indaga come l'ordine dei dati di addestramento influisca sull'ancoraggio temporale dei grandi modelli linguistici (LLM). I ricercatori hanno introdotto un benchmark di oltre 7.000 domande temporalmente ancorate per valutare se i modelli associano correttamente i fatti ai loro periodi temporali. Hanno pre-addestrato modelli con 6 miliardi di parametri su snapshot di Common Crawl ordinati temporalmente e li hanno confrontati con il pre-addestramento standard mescolato. I risultati hanno mostrato che i modelli addestrati sequenzialmente eguagliavano i baselines mescolati nella comprensione linguistica generale, pur esibendo una conoscenza più aggiornata e temporalmente precisa. Il lavoro evidenzia l'importanza della temporalità dei dati nel pre-addestramento dei LLM.
Fatti principali
- Il paper arXiv 2605.22769 studia l'impatto della temporalità dei dati nel pre-addestramento dei LLM.
- Creato un benchmark di oltre 7.000 domande temporalmente ancorate.
- Modelli con 6 miliardi di parametri pre-addestrati su snapshot di Common Crawl ordinati temporalmente.
- I modelli addestrati sequenzialmente hanno eguagliato i baselines mescolati nella comprensione linguistica generale.
- L'addestramento sequenziale ha portato a una conoscenza più aggiornata e temporalmente precisa.
- Il pre-addestramento standard mescolato congela la conoscenza al momento dell'addestramento.
- L'ancoraggio temporale dei LLM rimane poco compreso.
- Il protocollo di valutazione consente l'analisi delle associazioni fatto-periodo temporale.
Entità
Istituzioni
- arXiv
- Common Crawl