ARTFEED — Contemporary Art Intelligence

ORPHEAS: Modello di Embedding Bilingue Greco-Inglese per RAG

other · 2026-04-24

I ricercatori propongono ORPHEAS, un modello di embedding specializzato greco-inglese per la generazione aumentata da recupero bilingue (RAG). I modelli multilingue esistenti non riescono a ottimizzare per il greco a causa della sua complessità morfologica e della terminologia specifica del dominio. ORPHEAS è addestrato su un dataset di alta qualità generato tramite una metodologia di fine-tuning basata su grafi di conoscenza applicata a un corpus multi-dominio diversificato, consentendo rappresentazioni semantiche indipendenti dalla lingua. Esperimenti numerici mostrano che ORPHEAS supera i modelli all'avanguardia nei benchmark di recupero monolingue e cross-lingue. Il lavoro colma una lacuna nella PNL cross-lingue per applicazioni greco-inglesi.

Fatti principali

  • ORPHEAS è un modello di embedding greco-inglese per RAG bilingue.
  • I modelli multilingue esistenti sono subottimali per il greco a causa della complessità morfologica.
  • L'addestramento utilizza una metodologia di fine-tuning basata su grafi di conoscenza.
  • Il dataset è generato da un corpus multi-dominio diversificato.
  • ORPHEAS consente rappresentazioni semantiche indipendenti dalla lingua.
  • Supera lo stato dell'arte nei benchmark di recupero.
  • Colma una lacuna nella PNL cross-lingue per il greco-inglese.
  • Pubblicato su arXiv con ID 2604.20666.

Entità

Istituzioni

  • arXiv

Fonti