ML-Embed: Incorporamenti testuali multilingue efficienti
Un nuovo articolo di ricerca introduce ML-Embed, una suite di modelli di incorporamento testuale multilingue progettata per affrontare tre barriere: costi computazionali elevati, focus linguistico ristretto e mancanza di trasparenza. I modelli sono basati su un framework di Apprendimento Matryoshka Tridimensionale (3D-ML), che include l'Apprendimento di Rappresentazione Matryoshka (MRL) per l'efficienza di archiviazione, l'Apprendimento di Strati Matryoshka (MLL) per l'inferenza flessibile e un nuovo Apprendimento di Incorporamento Matryoshka (MEL) per l'efficienza dei parametri. Gli autori hanno curato un dataset massivamente multilingue per addestrare i modelli, con l'obiettivo di rendere gli incorporamenti più inclusivi ed efficienti per un'ampia gamma di lingue.
Fatti principali
- ML-Embed è una suite di modelli di incorporamento testuale inclusivi ed efficienti.
- I modelli affrontano costi computazionali proibitivi, focus linguistico ristretto e mancanza di trasparenza.
- Il framework si chiama Apprendimento Matryoshka Tridimensionale (3D-ML).
- 3D-ML include MRL, MLL e il nuovo MEL.
- MEL migliora l'efficienza dei parametri.
- È stato curato un dataset massivamente multilingue per l'addestramento.
- L'articolo è disponibile su arXiv con ID 2605.15081.
- La ricerca mira a democratizzare incorporamenti di alta qualità per molte lingue.
Entità
Istituzioni
- arXiv