La Tassa di Traduzione Non è una Grandezza Scalare: Audit Controfattuale dei Benchmark Cinesi
Un nuovo studio mette in discussione l'assunto che la Tassa di Traduzione sia un fenomeno scalare nei benchmark multilingue. I ricercatori hanno sottoposto a audit le traduzioni dall'inglese al cinese utilizzando tre stimatori proxy: gap di retro-traduzione, calibrazione del cue-score e un confronto nativo-controllo con sei modelli. I risultati hanno mostrato effetti legati alla famiglia di modelli piuttosto che effetti uniformi del benchmark. Un test di stress di naturalizzazione LLM sugli stessi item ha rivelato una dose-risposta residua, dove gli item ad alto residuo beneficiavano della traduzione mentre quelli a basso residuo no. Lo studio conclude che la Tassa di Traduzione non è un effetto singolo ma un insieme di rischi di validità dipendenti dallo stimatore e dall'item. Gli autori hanno rilasciato evidenze per cella, il protocollo di naturalizzazione e dati di controllo qualità umani.
Fatti principali
- La Tassa di Traduzione è spesso trattata come una grandezza scalare nei benchmark tradotti.
- Sono stati utilizzati tre stimatori proxy: gap di retro-traduzione, calibrazione del cue-score e confronto nativo-controllo con sei modelli.
- I gap di retro-traduzione erano piccoli e fragili rispetto al parser.
- La calibrazione del cue-score non ha predetto i guadagni a livello di item.
- Il confronto nativo-controllo con sei modelli ha mostrato effetti legati alla famiglia di modelli piuttosto che effetti uniformi del benchmark.
- Un test di stress di naturalizzazione LLM sugli stessi item ha mantenuto fissi risposta, opzioni e contenuto, riscrivendo la forma superficiale cinese.
- Dopo aver corretto un bug nella costruzione del prompt, il contrasto non supportava più un'interazione con la famiglia di modelli.
- Gli item ad alto residuo beneficiavano della traduzione mentre quelli a basso residuo no.
- Il risultato è un insieme di rischi di validità dipendenti dallo stimatore e dall'item.
- Lo studio ha rilasciato evidenze per cella, il protocollo di naturalizzazione e dati di controllo qualità umani.
Entità
Istituzioni
- arXiv