GAIA-v2-LILT: Benchmark multilingue per agenti oltre la traduzione
Un team di ricercatori ha sviluppato un processo migliorato per tradurre benchmark di agenti inglesi in varie lingue, affrontando problemi legati a discrepanze tra domanda e risposta e rilevanza culturale. Presentano GAIA-v2-LILT, una versione multilingue appena revisionata di GAIA che comprende cinque lingue oltre all'inglese. Questo flusso di lavoro incorpora allineamento funzionale esplicito, considerazioni culturali e aggiustamenti di difficoltà attraverso valutazioni automatiche e manuali. I loro esperimenti indicano che questo approccio aumenta i tassi di successo degli agenti fino al 32,7% rispetto alle versioni minimamente tradotte, portando i migliori risultati revisionati entro il 3,1% delle prestazioni in inglese, sebbene persistano divari significativi in diversi casi. La ricerca evidenzia che una traduzione automatica insufficiente e una post-editing minima possono compromettere la validità dei benchmark per compiti agentici.
Fatti principali
- GAIA-v2-LILT è un'estensione multilingue di GAIA che copre cinque lingue non inglesi.
- Il flusso di lavoro include allineamento funzionale, allineamento culturale e calibrazione della difficoltà.
- Migliora i tassi di successo degli agenti fino al 32,7% rispetto alle versioni minimamente tradotte.
- L'impostazione revisionata più vicina è entro il 3,1% delle prestazioni in inglese.
- Permangono divari sostanziali in molti casi.
- Una traduzione automatica minima e una post-editing limitata possono compromettere la validità del benchmark.
- Vengono utilizzati controlli automatici e revisione umana.
- Lo studio è pubblicato su arXiv (2604.24929).
Entità
Istituzioni
- arXiv