ARTFEED — Contemporary Art Intelligence

Descrizione artistica multilingue guidata da curatori per il pubblico BLV utilizzando piccoli VLM

publication · 2026-06-01

Un'indagine preliminare esamina l'uso di descrizioni artistiche multilingue guidate da curatori per persone cieche e ipovedenti (BLV) tramite Qwen2.5-VL-3B-Instruct, un modello linguistico-visivo compatto (VLM). Questa ricerca, disponibile su arXiv, affronta la sfida di fornire descrizioni artistiche accessibili in varie lingue, specialmente nei musei dove le questioni di privacy e proprietà intellettuale favoriscono modelli on-site. Il progetto sviluppa un corpus di didascalie parallele incentrato sulle esigenze BLV, utilizzando immagini di opere d'arte e metadati in tedesco, rumeno e serbo. Valuta adattatori LoRA specifici per lingua rispetto a un singolo adattatore multilingue all'interno di un budget di addestramento prestabilito. I risultati indicano che gli adattatori specifici per lingua offrono una migliore controllabilità e qualità descrittiva per rumeno e serbo, mentre l'approccio multilingue è efficace per il tedesco. Lo studio sottolinea il potenziale dei piccoli VLM per migliorare l'accessibilità artistica in ambienti museali multilingue.

Fatti principali

  • Lo studio utilizza Qwen2.5-VL-3B-Instruct per la descrizione artistica.
  • Lingue coperte: tedesco, rumeno, serbo.
  • Costruisce un corpus di didascalie parallele orientato alle esigenze BLV.
  • Confronta adattatori LoRA specifici per lingua con un singolo adattatore multilingue.
  • La valutazione include un protocollo LLM-as-Judge calibrato con un pilota BLV rumeno.
  • Gli adattatori specifici per lingua funzionano meglio per rumeno e serbo.
  • L'adattatore multilingue rimane competitivo per il tedesco.
  • Pubblicato su arXiv con ID 2605.31080.

Entità

Istituzioni

  • arXiv

Fonti