GAIA-v2-LILT: Benchmark multilingue per agenti oltre la traduzione

ai-technology · 2026-04-30

Un team di ricercatori ha sviluppato un processo migliorato per tradurre benchmark di agenti inglesi in varie lingue, affrontando problemi legati a discrepanze tra domanda e risposta e rilevanza culturale. Presentano GAIA-v2-LILT, una versione multilingue appena revisionata di GAIA che comprende cinque lingue oltre all'inglese. Questo flusso di lavoro incorpora allineamento funzionale esplicito, considerazioni culturali e aggiustamenti di difficoltà attraverso valutazioni automatiche e manuali. I loro esperimenti indicano che questo approccio aumenta i tassi di successo degli agenti fino al 32,7% rispetto alle versioni minimamente tradotte, portando i migliori risultati revisionati entro il 3,1% delle prestazioni in inglese, sebbene persistano divari significativi in diversi casi. La ricerca evidenzia che una traduzione automatica insufficiente e una post-editing minima possono compromettere la validità dei benchmark per compiti agentici.

Fatti principali

GAIA-v2-LILT è un'estensione multilingue di GAIA che copre cinque lingue non inglesi.
Il flusso di lavoro include allineamento funzionale, allineamento culturale e calibrazione della difficoltà.
Migliora i tassi di successo degli agenti fino al 32,7% rispetto alle versioni minimamente tradotte.
L'impostazione revisionata più vicina è entro il 3,1% delle prestazioni in inglese.
Permangono divari sostanziali in molti casi.
Una traduzione automatica minima e una post-editing limitata possono compromettere la validità del benchmark.
Vengono utilizzati controlli automatici e revisione umana.
Lo studio è pubblicato su arXiv (2604.24929).

GAIA-v2-LILT: Benchmark multilingue per agenti oltre la traduzione

Fatti principali

Entità

Istituzioni

Fonti