GEM: Miscelazione Entropica Geometrica per la Cura Ottimale dei Dati LLM
Il recentemente introdotto framework GEM (Geometric Entropy Mixing) ridefinisce la cura dei dati di pre-addestramento per modelli linguistici di grandi dimensioni (LLM) come un problema variazionale sull'ipersfera, incorporando un regolarizzatore di bilanciamento della miscelazione. Questo approccio supera i limiti delle tassonomie umane e del clustering euclideo separando il prior generativo e impiegando un algoritmo MM verificabile per l'ottimizzazione. GEM sfrutta la distillazione insegnante-studente per raggiungere la scalabilità a livello web e presenta il Geometric Influence Score (GIS) per generare tassonomie interpretabili. I test condotti su modelli con 1,1 miliardi di parametri dimostrano prestazioni all'avanguardia.
Fatti principali
- 1. GEM riformula la cura dei dati come un problema variazionale sull'ipersfera.
- 2. Utilizza un regolarizzatore di bilanciamento della miscelazione.
- 3. Disaccoppia il prior generativo e ottimizza tramite un algoritmo MM dimostrabile.
- 4. Impiega la distillazione insegnante-studente per corpora su scala web.
- 5. Introduce il Geometric Influence Score (GIS) per la generazione di tassonomie interpretabili.
- 6. Gli esperimenti sono stati condotti con modelli da 1,1 miliardi di parametri.
- 7. GEM stabilisce un nuovo stato dell'arte.
- 8. L'articolo è disponibile su arXiv con ID 2605.26121.
Entità
Istituzioni
- arXiv