La Ripetizione di Dati di Alta Qualità Migliora l'Addestramento dei Modelli Linguistici Tedeschi
Un nuovo studio su arXiv (2604.28075) analizza il compromesso tra diversità e qualità dei dati per la modellazione linguistica in tedesco. I ricercatori hanno applicato filtri di qualità gerarchici a 500 milioni di documenti web, confrontando l'addestramento multi-epoca su sottoinsiemi di alta qualità con l'addestramento a passaggio singolo su corpora più ampi e meno filtrati. Su diverse scale di modello e budget di token, la ripetizione di dati di alta qualità ha costantemente superato l'addestramento a passaggio singolo su dati diversificati, con un divario di prestazioni persistente anche dopo sette epoche. I risultati mettono in discussione l'assunto che la diversità sia sempre vantaggiosa per lingue non inglesi come tedesco, francese o giapponese, dove un filtraggio aggressivo potrebbe creare un dilemma strategico. Lo studio suggerisce che dare priorità alla qualità rispetto alla diversità attraverso la ripetizione può portare a una migliore efficienza dei campioni.
Fatti principali
- Lo studio analizza il filtraggio dei dati per la modellazione linguistica in tedesco
- Filtri di qualità gerarchici applicati a 500 milioni di documenti web
- Confronto tra addestramento multi-epoca su sottoinsiemi filtrati e passaggio singolo su corpus diversificato
- Testate diverse scale di modello e budget di token
- La ripetizione di dati di alta qualità ha superato l'addestramento a passaggio singolo
- Il divario di prestazioni è persistito dopo 7 epoche
- Mette in discussione l'assunto che la diversità sia sempre vantaggiosa per lingue non inglesi
- Focus sul tedesco, ma implicazioni per francese, giapponese e altre lingue
Entità
Istituzioni
- arXiv