ARTFEED — Contemporary Art Intelligence

VaaWIT: Adattamento dei LLM per la traduzione multilingue di immagini web

ai-technology · 2026-05-26

Un team di ricercatori ha presentato VaaWIT, un framework completo progettato per modificare i Large Language Models al fine di tradurre immagini web in più lingue. Questo sistema affronta il problema della rappresentazione visiva nei codificatori convenzionali, che tendono a concentrarsi sulla semantica generale piuttosto che sui dettagli visivi intricati essenziali per il riconoscimento dei caratteri. VaaWIT presenta un modulo di attenzione a doppio flusso (DSAM) che facilita la comunicazione bidirezionale tra attributi semantici multilingue e dati visivi dettagliati, generando caratteristiche robuste per diverse forme testuali. L'obiettivo principale di questo framework è migliorare l'accessibilità dei contenuti e facilitare il recupero di informazioni cross-lingue, in particolare nei settori dei social media e dell'e-commerce.

Fatti principali

  • VaaWIT è un framework end-to-end per la traduzione multilingue di immagini web.
  • Adatta i Large Language Models per superare il divario nella rappresentazione visiva.
  • I codificatori standard spesso perdono i dettagli visivi fini per il riconoscimento dei caratteri.
  • Il framework introduce un modulo di attenzione a doppio flusso (DSAM).
  • DSAM consente l'interazione bidirezionale tra caratteristiche semantiche e visive.
  • Il sistema sintetizza caratteristiche unificate robuste alle variazioni testuali.
  • Mira a migliorare l'accessibilità dei contenuti e il recupero di informazioni cross-lingue.
  • I domini target includono social media ed e-commerce.

Entità

Fonti