Classificatori di qualità cross-lingua per la selezione di dati di pre-addestramento multilingue

ai-technology · 2026-04-24

Un recente preprint su arXiv, identificato con ID 2604.20549, esamina l'uso di classificatori di qualità cross-lingua per selezionare dati di pre-addestramento multilingue nei modelli linguistici di grandi dimensioni (LLM). Questa ricerca indaga se gli indicatori di qualità negli spazi di embedding mantengano coerenza tra le lingue, consentendo alle lingue ad alte risorse di aiutare nella filtrazione di quelle a basse risorse. Lo studio ha valutato diversi metodi, come il trasferimento cross-lingua, il campionamento del terzo quartile (Q3) e la regolazione dei tassi di ritenzione. I risultati indicano che un pooling multilingue esteso supera frequentemente le baseline monolingue in termini di stabilità del rango e accuratezza complessiva per un modello con 1 miliardo di parametri addestrato su 103 miliardi di token. Per il francese, una lingua ad alte risorse, l'accuratezza normalizzata aggregata è aumentata dell'1,2%. Questo approccio affronta efficacemente la scarsità di dati nativi di alta qualità necessari per sviluppare robusti classificatori di qualità in varie lingue, enfatizzando l'ottimizzazione del rapporto segnale-rumore rispetto al mero volume di dati.

Fatti principali

ID arXiv: 2604.20549
Indaga i classificatori di qualità cross-lingua per la selezione di dati di pre-addestramento degli LLM
Valuta il trasferimento cross-lingua, il campionamento Q3 e la regolazione del tasso di ritenzione
Il pooling multilingue massiccio supera le baseline monolingue
Modello con 1 miliardo di parametri addestrato su 103 miliardi di token
L'accuratezza normalizzata aggregata per il francese è aumentata dell'1,2%
Affronta l'insufficienza di dati nativi di alta qualità per le lingue a basse risorse
Sposta la cura dei dati dal volume al rapporto segnale-rumore

Classificatori di qualità cross-lingua per la selezione di dati di pre-addestramento multilingue

Fatti principali

Entità

Istituzioni

Fonti