VaaWIT: Adattamento dei LLM per la traduzione multilingue di immagini web

ai-technology · 2026-05-26

Un team di ricercatori ha presentato VaaWIT, un framework completo progettato per modificare i Large Language Models al fine di tradurre immagini web in più lingue. Questo sistema affronta il problema della rappresentazione visiva nei codificatori convenzionali, che tendono a concentrarsi sulla semantica generale piuttosto che sui dettagli visivi intricati essenziali per il riconoscimento dei caratteri. VaaWIT presenta un modulo di attenzione a doppio flusso (DSAM) che facilita la comunicazione bidirezionale tra attributi semantici multilingue e dati visivi dettagliati, generando caratteristiche robuste per diverse forme testuali. L'obiettivo principale di questo framework è migliorare l'accessibilità dei contenuti e facilitare il recupero di informazioni cross-lingue, in particolare nei settori dei social media e dell'e-commerce.

Fatti principali

VaaWIT è un framework end-to-end per la traduzione multilingue di immagini web.
Adatta i Large Language Models per superare il divario nella rappresentazione visiva.
I codificatori standard spesso perdono i dettagli visivi fini per il riconoscimento dei caratteri.
Il framework introduce un modulo di attenzione a doppio flusso (DSAM).
DSAM consente l'interazione bidirezionale tra caratteristiche semantiche e visive.
Il sistema sintetizza caratteristiche unificate robuste alle variazioni testuali.
Mira a migliorare l'accessibilità dei contenuti e il recupero di informazioni cross-lingue.
I domini target includono social media ed e-commerce.

Entità

—

Fonti

arXiv cs.AI — 2026-05-26