ORPHEAS: Modello di Embedding Bilingue Greco-Inglese per RAG
I ricercatori propongono ORPHEAS, un modello di embedding specializzato greco-inglese per la generazione aumentata da recupero bilingue (RAG). I modelli multilingue esistenti non riescono a ottimizzare per il greco a causa della sua complessità morfologica e della terminologia specifica del dominio. ORPHEAS è addestrato su un dataset di alta qualità generato tramite una metodologia di fine-tuning basata su grafi di conoscenza applicata a un corpus multi-dominio diversificato, consentendo rappresentazioni semantiche indipendenti dalla lingua. Esperimenti numerici mostrano che ORPHEAS supera i modelli all'avanguardia nei benchmark di recupero monolingue e cross-lingue. Il lavoro colma una lacuna nella PNL cross-lingue per applicazioni greco-inglesi.
Fatti principali
- ORPHEAS è un modello di embedding greco-inglese per RAG bilingue.
- I modelli multilingue esistenti sono subottimali per il greco a causa della complessità morfologica.
- L'addestramento utilizza una metodologia di fine-tuning basata su grafi di conoscenza.
- Il dataset è generato da un corpus multi-dominio diversificato.
- ORPHEAS consente rappresentazioni semantiche indipendenti dalla lingua.
- Supera lo stato dell'arte nei benchmark di recupero.
- Colma una lacuna nella PNL cross-lingue per il greco-inglese.
- Pubblicato su arXiv con ID 2604.20666.
Entità
Istituzioni
- arXiv