ARTFEED — Contemporary Art Intelligence

Studio mette in discussione il filtraggio dei dati per il pre-addestramento di modelli di grandi dimensioni

ai-technology · 2026-05-20

Un nuovo studio di scaling sul pre-addestramento di modelli di grandi dimensioni nel regime ad alta potenza di calcolo e scarsità di dati suggerisce che il filtraggio dei dati potrebbe essere controproducente. Contrariamente alla convinzione comune che i dati di alta qualità siano essenziali, la ricerca scopre che modelli con parametri sufficientemente addestrati traggono beneficio da dati di bassa qualità e distrattori, e che il miglior filtro è nessun filtro.

Fatti principali

  • Lo studio indaga il filtraggio dei dati per il pre-addestramento di modelli di grandi dimensioni.
  • Si concentra sul regime ad alta potenza di calcolo e scarsità di dati.
  • La convinzione comune ritiene che il filtraggio verso dati di alta qualità sia essenziale.
  • Gli esperimenti suggeriscono che, con sufficiente potenza di calcolo, nessun filtro dei dati è la scelta migliore.
  • I modelli con molti parametri tollerano e traggono beneficio da dati di bassa qualità.

Entità

Istituzioni

  • arXiv

Fonti