La Ripetizione di Dati di Alta Qualità Migliora l'Addestramento dei Modelli Linguistici Tedeschi

publication · 2026-05-01

Un nuovo studio su arXiv (2604.28075) analizza il compromesso tra diversità e qualità dei dati per la modellazione linguistica in tedesco. I ricercatori hanno applicato filtri di qualità gerarchici a 500 milioni di documenti web, confrontando l'addestramento multi-epoca su sottoinsiemi di alta qualità con l'addestramento a passaggio singolo su corpora più ampi e meno filtrati. Su diverse scale di modello e budget di token, la ripetizione di dati di alta qualità ha costantemente superato l'addestramento a passaggio singolo su dati diversificati, con un divario di prestazioni persistente anche dopo sette epoche. I risultati mettono in discussione l'assunto che la diversità sia sempre vantaggiosa per lingue non inglesi come tedesco, francese o giapponese, dove un filtraggio aggressivo potrebbe creare un dilemma strategico. Lo studio suggerisce che dare priorità alla qualità rispetto alla diversità attraverso la ripetizione può portare a una migliore efficienza dei campioni.

Fatti principali

Lo studio analizza il filtraggio dei dati per la modellazione linguistica in tedesco
Filtri di qualità gerarchici applicati a 500 milioni di documenti web
Confronto tra addestramento multi-epoca su sottoinsiemi filtrati e passaggio singolo su corpus diversificato
Testate diverse scale di modello e budget di token
La ripetizione di dati di alta qualità ha superato l'addestramento a passaggio singolo
Il divario di prestazioni è persistito dopo 7 epoche
Mette in discussione l'assunto che la diversità sia sempre vantaggiosa per lingue non inglesi
Focus sul tedesco, ma implicazioni per francese, giapponese e altre lingue

La Ripetizione di Dati di Alta Qualità Migliora l'Addestramento dei Modelli Linguistici Tedeschi

Fatti principali

Entità

Istituzioni

Fonti