ARTFEED — Contemporary Art Intelligence

GEM: Miscelazione Entropica Geometrica per la Cura Ottimale dei Dati LLM

ai-technology · 2026-05-27

Il recentemente introdotto framework GEM (Geometric Entropy Mixing) ridefinisce la cura dei dati di pre-addestramento per modelli linguistici di grandi dimensioni (LLM) come un problema variazionale sull'ipersfera, incorporando un regolarizzatore di bilanciamento della miscelazione. Questo approccio supera i limiti delle tassonomie umane e del clustering euclideo separando il prior generativo e impiegando un algoritmo MM verificabile per l'ottimizzazione. GEM sfrutta la distillazione insegnante-studente per raggiungere la scalabilità a livello web e presenta il Geometric Influence Score (GIS) per generare tassonomie interpretabili. I test condotti su modelli con 1,1 miliardi di parametri dimostrano prestazioni all'avanguardia.

Fatti principali

  • 1. GEM riformula la cura dei dati come un problema variazionale sull'ipersfera.
  • 2. Utilizza un regolarizzatore di bilanciamento della miscelazione.
  • 3. Disaccoppia il prior generativo e ottimizza tramite un algoritmo MM dimostrabile.
  • 4. Impiega la distillazione insegnante-studente per corpora su scala web.
  • 5. Introduce il Geometric Influence Score (GIS) per la generazione di tassonomie interpretabili.
  • 6. Gli esperimenti sono stati condotti con modelli da 1,1 miliardi di parametri.
  • 7. GEM stabilisce un nuovo stato dell'arte.
  • 8. L'articolo è disponibile su arXiv con ID 2605.26121.

Entità

Istituzioni

  • arXiv

Fonti