ARTFEED — Contemporary Art Intelligence

Classificatori di qualità cross-lingua per la selezione di dati di pre-addestramento multilingue

ai-technology · 2026-04-24

Un recente preprint su arXiv, identificato con ID 2604.20549, esamina l'uso di classificatori di qualità cross-lingua per selezionare dati di pre-addestramento multilingue nei modelli linguistici di grandi dimensioni (LLM). Questa ricerca indaga se gli indicatori di qualità negli spazi di embedding mantengano coerenza tra le lingue, consentendo alle lingue ad alte risorse di aiutare nella filtrazione di quelle a basse risorse. Lo studio ha valutato diversi metodi, come il trasferimento cross-lingua, il campionamento del terzo quartile (Q3) e la regolazione dei tassi di ritenzione. I risultati indicano che un pooling multilingue esteso supera frequentemente le baseline monolingue in termini di stabilità del rango e accuratezza complessiva per un modello con 1 miliardo di parametri addestrato su 103 miliardi di token. Per il francese, una lingua ad alte risorse, l'accuratezza normalizzata aggregata è aumentata dell'1,2%. Questo approccio affronta efficacemente la scarsità di dati nativi di alta qualità necessari per sviluppare robusti classificatori di qualità in varie lingue, enfatizzando l'ottimizzazione del rapporto segnale-rumore rispetto al mero volume di dati.

Fatti principali

  • ID arXiv: 2604.20549
  • Indaga i classificatori di qualità cross-lingua per la selezione di dati di pre-addestramento degli LLM
  • Valuta il trasferimento cross-lingua, il campionamento Q3 e la regolazione del tasso di ritenzione
  • Il pooling multilingue massiccio supera le baseline monolingue
  • Modello con 1 miliardo di parametri addestrato su 103 miliardi di token
  • L'accuratezza normalizzata aggregata per il francese è aumentata dell'1,2%
  • Affronta l'insufficienza di dati nativi di alta qualità per le lingue a basse risorse
  • Sposta la cura dei dati dal volume al rapporto segnale-rumore

Entità

Istituzioni

  • arXiv

Fonti