Studio mette in discussione il filtraggio dei dati per il pre-addestramento di modelli di grandi dimensioni

ai-technology · 2026-05-20

Un nuovo studio di scaling sul pre-addestramento di modelli di grandi dimensioni nel regime ad alta potenza di calcolo e scarsità di dati suggerisce che il filtraggio dei dati potrebbe essere controproducente. Contrariamente alla convinzione comune che i dati di alta qualità siano essenziali, la ricerca scopre che modelli con parametri sufficientemente addestrati traggono beneficio da dati di bassa qualità e distrattori, e che il miglior filtro è nessun filtro.

Fatti principali

Lo studio indaga il filtraggio dei dati per il pre-addestramento di modelli di grandi dimensioni.
Si concentra sul regime ad alta potenza di calcolo e scarsità di dati.
La convinzione comune ritiene che il filtraggio verso dati di alta qualità sia essenziale.
Gli esperimenti suggeriscono che, con sufficiente potenza di calcolo, nessun filtro dei dati è la scelta migliore.
I modelli con molti parametri tollerano e traggono beneficio da dati di bassa qualità.

Studio mette in discussione il filtraggio dei dati per il pre-addestramento di modelli di grandi dimensioni

Fatti principali

Entità

Istituzioni

Fonti