Quadro di Generalizzazione Linguistica per Varietà a Basse Risorse
Un nuovo quadro di generalizzazione linguistica in due fasi affronta la trascuratezza delle varietà linguistiche a basse risorse nei modelli linguistici multilingue. A differenza delle precedenti ricerche cross-linguistiche incentrate sull'allineamento di varietà affini, questo approccio sfrutta la dissimilarità linguistica come indizio per la generalizzazione a varietà non viste. Il quadro include TOPPing, un metodo di selezione delle fonti per varietà a basse risorse, e VACAI-Bowl, un'architettura leggera che apprende attributi specifici della varietà tramite un ramo e attributi invarianti della varietà tramite addestramento avversario. Il lavoro è pubblicato su arXiv con ID 2605.04500.
Fatti principali
- Le varietà linguistiche a basse risorse sono trascurate nei modelli linguistici multilingue.
- La ricerca cross-linguistica tipicamente minimizza le differenze tra varietà affini.
- La dissimilarità linguistica viene utilizzata come indizio per la generalizzazione a varietà non viste.
- Il quadro ha due fasi: selezione delle fonti TOPPing e architettura VACAI-Bowl.
- VACAI-Bowl apprende attributi specifici della varietà e invarianti della varietà.
- L'addestramento avversario è impiegato per gli attributi invarianti della varietà.
- L'articolo è disponibile su arXiv con ID 2605.04500.
- L'approccio è progettato specificamente per varietà a basse risorse.
Entità
Istituzioni
- arXiv