GEM: Miscelazione Entropica Geometrica per la Cura Ottimale dei Dati LLM

ai-technology · 2026-05-27

Il recentemente introdotto framework GEM (Geometric Entropy Mixing) ridefinisce la cura dei dati di pre-addestramento per modelli linguistici di grandi dimensioni (LLM) come un problema variazionale sull'ipersfera, incorporando un regolarizzatore di bilanciamento della miscelazione. Questo approccio supera i limiti delle tassonomie umane e del clustering euclideo separando il prior generativo e impiegando un algoritmo MM verificabile per l'ottimizzazione. GEM sfrutta la distillazione insegnante-studente per raggiungere la scalabilità a livello web e presenta il Geometric Influence Score (GIS) per generare tassonomie interpretabili. I test condotti su modelli con 1,1 miliardi di parametri dimostrano prestazioni all'avanguardia.

Fatti principali

1. GEM riformula la cura dei dati come un problema variazionale sull'ipersfera.
2. Utilizza un regolarizzatore di bilanciamento della miscelazione.
3. Disaccoppia il prior generativo e ottimizza tramite un algoritmo MM dimostrabile.
4. Impiega la distillazione insegnante-studente per corpora su scala web.
5. Introduce il Geometric Influence Score (GIS) per la generazione di tassonomie interpretabili.
6. Gli esperimenti sono stati condotti con modelli da 1,1 miliardi di parametri.
7. GEM stabilisce un nuovo stato dell'arte.
8. L'articolo è disponibile su arXiv con ID 2605.26121.

GEM: Miscelazione Entropica Geometrica per la Cura Ottimale dei Dati LLM

Fatti principali

Entità

Istituzioni

Fonti