Soro: LLM specializzato per il tagico supera Gemma 3 nei benchmark locali
Un team di ricercatori ha presentato Soro, una serie di modelli linguistici conversazionali di grandi dimensioni (LLM) adattati alla lingua tagica, che ha avuto una rappresentanza limitata nell'IA. Questi modelli sono costruiti a partire dai checkpoint open-weight di Gemma 3 e subiscono un pre-addestramento continuo esclusivamente in tagico, utilizzando un corpus meticolosamente curato di 1,9 miliardi di token che include contenuti web filtrati, file PDF e materiali educativi allineati ai programmi di studio. Segue un addestramento supervisionato con 40.000 esempi modellati su insegnanti tagici. Per valutarne l'efficacia, i ricercatori hanno sviluppato una raccolta di benchmark tagici incentrati su conoscenze generali, competenze linguistiche ed esami di ammissione accademica, disponibili su Hugging Face. Soro supera significativamente i modelli Gemma 3 equivalenti in questi benchmark, mantenendo al contempo prestazioni robuste in inglese su dataset standard. I modelli sono ottimizzati per l'uso pratico in Tagikistan, considerando i vincoli di calcolo e connettività, con miglioramenti tramite quantizzazione FP8 e INT4.
Fatti principali
- Soro è una famiglia di LLM conversazionali specializzati per il tagico.
- Costruito a partire dai checkpoint open-weight di Gemma 3.
- Pre-addestramento continuo solo in tagico su un corpus di 1,9 miliardi di token.
- Il corpus include testo web filtrato, documenti PDF e materiali educativi.
- Addestramento supervisionato su 40.000 esempi in stile insegnante tagico.
- Introdotti nuovi benchmark tagici per la valutazione.
- I benchmark coprono conoscenze generali, competenze linguistiche e ambiti di esame.
- Soro supera Gemma 3 della stessa dimensione nei benchmark tagici.
- Mantiene prestazioni elevate in inglese su dataset standard.
- Progettato per l'implementazione con vincoli di calcolo e connettività in Tagikistan.
- Utilizza quantizzazione FP8 e INT4 per l'efficienza.
- Benchmark open-source su Hugging Face.
Entità
Istituzioni
- Hugging Face
- Gemma 3
Luoghi
- Tajikistan