MIMO: Nuovo Framework per il Recupero Multilingue di Informazioni
I ricercatori propongono MIMO (Multilingual Information Retrieval via Monolingual Objectives), un framework a due fasi per migliorare il recupero cross-lingue. I modelli di embedding esistenti ottimizzati per il recupero multi-monolingue degradano in contesti MLIR e l'apprendimento contrastivo può causare clustering linguistico. MIMO utilizza uno spazio semantico inglese stabile da un modello insegnante come ancoraggio, inizializza l'allineamento del modello studente tramite distillazione della conoscenza e ottimizza congiuntamente la distillazione e l'apprendimento contrastivo cross-lingue. L'articolo è disponibile su arXiv.
Fatti principali
- MIMO sta per Multilingual Information Retrieval via Monolingual Objectives
- È un framework a due fasi
- Utilizza uno spazio semantico inglese stabile da un modello insegnante
- Affronta le limitazioni dei modelli di embedding esistenti in MLIR
- Inizializza l'allineamento cross-lingue attraverso la distillazione della conoscenza
- Ottimizza congiuntamente la distillazione e l'apprendimento contrastivo cross-lingue
- L'articolo è su arXiv con ID 2605.31171
- Mira a migliorare la discriminabilità del recupero
Entità
Istituzioni
- arXiv