Trasferimento Cross-Linguale nei Modelli Linguistici Studiato tramite un Approccio In-Vitro
Una recente indagine pubblicata su arXiv (2605.26683) esamina il trasferimento cross-linguale all'interno dei modelli linguistici attraverso un approccio in-vitro, utilizzando due lingue generate proceduralmente che condividono la stessa ontologia, grammatica e composizione, ma variano nell'aspetto superficiale. I ricercatori hanno condotto 700 esperimenti controllati, regolando indipendentemente fattori come la distanza lessicale, la proporzione della lingua minoritaria, i metodi di addestramento del tokenizer e la dimensione del vocabolario. I loro risultati indicano che l'efficacia del trasferimento è influenzata più dalla preservazione della sottostruttura cross-linguale riutilizzabile durante la tokenizzazione che dall'equilibrio del tokenizer o dalla somiglianza lessicale. Inoltre, vocabolari più piccoli hanno migliorato il trasferimento mascherato consentendo la scomposizione delle parole in componenti condivisi, mentre vocabolari più grandi potevano ostacolare questo processo. Lo studio si concentra su uno scenario di lingua minoritaria mascherata non incontrato durante l'addestramento.
Fatti principali
- Lo studio utilizza due lingue generate proceduralmente con ontologia e grammatica condivise.
- Le lingue differiscono solo nella realizzazione superficiale.
- Sono state condotte 700 esecuzioni controllate.
- Variabili: distanza lessicale, proporzione della lingua minoritaria, regime di addestramento del tokenizer, dimensione del vocabolario.
- Il trasferimento è governato dalla preservazione della sottostruttura cross-linguale.
- Vocabolari più piccoli migliorano il trasferimento mascherato.
- Vocabolari più grandi possono trasformare le forme in token specifici della lingua.
- La condizione di lingua minoritaria non è mai stata osservata durante l'addestramento.
Entità
Istituzioni
- arXiv