ARTFEED — Contemporary Art Intelligence

La Tassa di Traduzione Non è una Grandezza Scalare: Audit Controfattuale dei Benchmark Cinesi

publication · 2026-05-11

Un nuovo studio mette in discussione l'assunto che la Tassa di Traduzione sia un fenomeno scalare nei benchmark multilingue. I ricercatori hanno sottoposto a audit le traduzioni dall'inglese al cinese utilizzando tre stimatori proxy: gap di retro-traduzione, calibrazione del cue-score e un confronto nativo-controllo con sei modelli. I risultati hanno mostrato effetti legati alla famiglia di modelli piuttosto che effetti uniformi del benchmark. Un test di stress di naturalizzazione LLM sugli stessi item ha rivelato una dose-risposta residua, dove gli item ad alto residuo beneficiavano della traduzione mentre quelli a basso residuo no. Lo studio conclude che la Tassa di Traduzione non è un effetto singolo ma un insieme di rischi di validità dipendenti dallo stimatore e dall'item. Gli autori hanno rilasciato evidenze per cella, il protocollo di naturalizzazione e dati di controllo qualità umani.

Fatti principali

  • La Tassa di Traduzione è spesso trattata come una grandezza scalare nei benchmark tradotti.
  • Sono stati utilizzati tre stimatori proxy: gap di retro-traduzione, calibrazione del cue-score e confronto nativo-controllo con sei modelli.
  • I gap di retro-traduzione erano piccoli e fragili rispetto al parser.
  • La calibrazione del cue-score non ha predetto i guadagni a livello di item.
  • Il confronto nativo-controllo con sei modelli ha mostrato effetti legati alla famiglia di modelli piuttosto che effetti uniformi del benchmark.
  • Un test di stress di naturalizzazione LLM sugli stessi item ha mantenuto fissi risposta, opzioni e contenuto, riscrivendo la forma superficiale cinese.
  • Dopo aver corretto un bug nella costruzione del prompt, il contrasto non supportava più un'interazione con la famiglia di modelli.
  • Gli item ad alto residuo beneficiavano della traduzione mentre quelli a basso residuo no.
  • Il risultato è un insieme di rischi di validità dipendenti dallo stimatore e dall'item.
  • Lo studio ha rilasciato evidenze per cella, il protocollo di naturalizzazione e dati di controllo qualità umani.

Entità

Istituzioni

  • arXiv

Fonti