Studio mette in discussione il filtraggio dei dati per il pre-addestramento di modelli di grandi dimensioni
Un nuovo studio di scaling sul pre-addestramento di modelli di grandi dimensioni nel regime ad alta potenza di calcolo e scarsità di dati suggerisce che il filtraggio dei dati potrebbe essere controproducente. Contrariamente alla convinzione comune che i dati di alta qualità siano essenziali, la ricerca scopre che modelli con parametri sufficientemente addestrati traggono beneficio da dati di bassa qualità e distrattori, e che il miglior filtro è nessun filtro.
Fatti principali
- Lo studio indaga il filtraggio dei dati per il pre-addestramento di modelli di grandi dimensioni.
- Si concentra sul regime ad alta potenza di calcolo e scarsità di dati.
- La convinzione comune ritiene che il filtraggio verso dati di alta qualità sia essenziale.
- Gli esperimenti suggeriscono che, con sufficiente potenza di calcolo, nessun filtro dei dati è la scelta migliore.
- I modelli con molti parametri tollerano e traggono beneficio da dati di bassa qualità.
Entità
Istituzioni
- arXiv