La fertilità del tokenizer varia di 1,6 volte tra i modelli foundation sul testo legale ucraino
Uno studio recente pubblicato su arXiv (2605.14890) valuta sette modelli foundation di cinque diversi fornitori utilizzando 273 sentenze verificate dal registro statale ucraino (EDRSR). La ricerca valuta la fertilità del tokenizer e le prestazioni zero-shot in tre compiti, rivelando una variazione di 1,6 volte nella fertilità del tokenizer tra i modelli, un aspetto spesso trascurato nella selezione del modello che incide sui costi. I modelli Qwen 3 richiedono il 60% in più di token rispetto ai modelli della famiglia Llama per lo stesso input, sottolineando l'importanza dell'analisi del tokenizer per un'implementazione economicamente vantaggiosa. Il NVIDIA Nemotron Super 3 (120B) ha ottenuto il punteggio composito più alto (83,1), superando Mistral Large 3 (che ha 5,6 volte più parametri) a un terzo del costo API, indicando che la dimensione del modello non è un indicatore affidabile delle prestazioni in questo contesto. Inoltre, il few-shot prompting può ridurre le prestazioni fino a 26 punti percentuali; test di stratificazione e sensibilità al prompt confermano che questo problema è intrinseco ai compiti in lingua ucraina.
Fatti principali
- La fertilità del tokenizer varia di 1,6 volte tra i modelli foundation sul testo legale ucraino.
- Sette modelli di cinque fornitori sono stati confrontati su 273 decisioni giudiziarie validate da EDRSR.
- I modelli Qwen 3 consumano il 60% in più di token rispetto ai modelli della famiglia Llama sullo stesso input.
- NVIDIA Nemotron Super 3 (120B) ottiene il punteggio composito più alto (83,1).
- Nemotron supera Mistral Large 3 a un terzo del costo API.
- Il few-shot prompting degrada le prestazioni fino a 26 punti percentuali.
- Il degrado è intrinseco alle dimostrazioni in lingua ucraina.
- Lo studio proviene da arXiv:2605.14890.
Entità
Istituzioni
- arXiv
- Qwen
- Llama
- NVIDIA
- Mistral
- EDRSR
Luoghi
- Ukraine