Descrizione artistica multilingue guidata da curatori per il pubblico BLV utilizzando piccoli VLM

publication · 2026-06-01

Un'indagine preliminare esamina l'uso di descrizioni artistiche multilingue guidate da curatori per persone cieche e ipovedenti (BLV) tramite Qwen2.5-VL-3B-Instruct, un modello linguistico-visivo compatto (VLM). Questa ricerca, disponibile su arXiv, affronta la sfida di fornire descrizioni artistiche accessibili in varie lingue, specialmente nei musei dove le questioni di privacy e proprietà intellettuale favoriscono modelli on-site. Il progetto sviluppa un corpus di didascalie parallele incentrato sulle esigenze BLV, utilizzando immagini di opere d'arte e metadati in tedesco, rumeno e serbo. Valuta adattatori LoRA specifici per lingua rispetto a un singolo adattatore multilingue all'interno di un budget di addestramento prestabilito. I risultati indicano che gli adattatori specifici per lingua offrono una migliore controllabilità e qualità descrittiva per rumeno e serbo, mentre l'approccio multilingue è efficace per il tedesco. Lo studio sottolinea il potenziale dei piccoli VLM per migliorare l'accessibilità artistica in ambienti museali multilingue.

Fatti principali

Lo studio utilizza Qwen2.5-VL-3B-Instruct per la descrizione artistica.
Lingue coperte: tedesco, rumeno, serbo.
Costruisce un corpus di didascalie parallele orientato alle esigenze BLV.
Confronta adattatori LoRA specifici per lingua con un singolo adattatore multilingue.
La valutazione include un protocollo LLM-as-Judge calibrato con un pilota BLV rumeno.
Gli adattatori specifici per lingua funzionano meglio per rumeno e serbo.
L'adattatore multilingue rimane competitivo per il tedesco.
Pubblicato su arXiv con ID 2605.31080.

Descrizione artistica multilingue guidata da curatori per il pubblico BLV utilizzando piccoli VLM

Fatti principali

Entità

Istituzioni

Fonti