La Tassa di Traduzione Non è una Grandezza Scalare: Audit Controfattuale dei Benchmark Cinesi

publication · 2026-05-11

Un nuovo studio mette in discussione l'assunto che la Tassa di Traduzione sia un fenomeno scalare nei benchmark multilingue. I ricercatori hanno sottoposto a audit le traduzioni dall'inglese al cinese utilizzando tre stimatori proxy: gap di retro-traduzione, calibrazione del cue-score e un confronto nativo-controllo con sei modelli. I risultati hanno mostrato effetti legati alla famiglia di modelli piuttosto che effetti uniformi del benchmark. Un test di stress di naturalizzazione LLM sugli stessi item ha rivelato una dose-risposta residua, dove gli item ad alto residuo beneficiavano della traduzione mentre quelli a basso residuo no. Lo studio conclude che la Tassa di Traduzione non è un effetto singolo ma un insieme di rischi di validità dipendenti dallo stimatore e dall'item. Gli autori hanno rilasciato evidenze per cella, il protocollo di naturalizzazione e dati di controllo qualità umani.

Fatti principali

La Tassa di Traduzione è spesso trattata come una grandezza scalare nei benchmark tradotti.
Sono stati utilizzati tre stimatori proxy: gap di retro-traduzione, calibrazione del cue-score e confronto nativo-controllo con sei modelli.
I gap di retro-traduzione erano piccoli e fragili rispetto al parser.
La calibrazione del cue-score non ha predetto i guadagni a livello di item.
Il confronto nativo-controllo con sei modelli ha mostrato effetti legati alla famiglia di modelli piuttosto che effetti uniformi del benchmark.
Un test di stress di naturalizzazione LLM sugli stessi item ha mantenuto fissi risposta, opzioni e contenuto, riscrivendo la forma superficiale cinese.
Dopo aver corretto un bug nella costruzione del prompt, il contrasto non supportava più un'interazione con la famiglia di modelli.
Gli item ad alto residuo beneficiavano della traduzione mentre quelli a basso residuo no.
Il risultato è un insieme di rischi di validità dipendenti dallo stimatore e dall'item.
Lo studio ha rilasciato evidenze per cella, il protocollo di naturalizzazione e dati di controllo qualità umani.

La Tassa di Traduzione Non è una Grandezza Scalare: Audit Controfattuale dei Benchmark Cinesi

Fatti principali

Entità

Istituzioni

Fonti