Descrizione artistica multilingue guidata da curatori per il pubblico BLV utilizzando piccoli VLM
Un'indagine preliminare esamina l'uso di descrizioni artistiche multilingue guidate da curatori per persone cieche e ipovedenti (BLV) tramite Qwen2.5-VL-3B-Instruct, un modello linguistico-visivo compatto (VLM). Questa ricerca, disponibile su arXiv, affronta la sfida di fornire descrizioni artistiche accessibili in varie lingue, specialmente nei musei dove le questioni di privacy e proprietà intellettuale favoriscono modelli on-site. Il progetto sviluppa un corpus di didascalie parallele incentrato sulle esigenze BLV, utilizzando immagini di opere d'arte e metadati in tedesco, rumeno e serbo. Valuta adattatori LoRA specifici per lingua rispetto a un singolo adattatore multilingue all'interno di un budget di addestramento prestabilito. I risultati indicano che gli adattatori specifici per lingua offrono una migliore controllabilità e qualità descrittiva per rumeno e serbo, mentre l'approccio multilingue è efficace per il tedesco. Lo studio sottolinea il potenziale dei piccoli VLM per migliorare l'accessibilità artistica in ambienti museali multilingue.
Fatti principali
- Lo studio utilizza Qwen2.5-VL-3B-Instruct per la descrizione artistica.
- Lingue coperte: tedesco, rumeno, serbo.
- Costruisce un corpus di didascalie parallele orientato alle esigenze BLV.
- Confronta adattatori LoRA specifici per lingua con un singolo adattatore multilingue.
- La valutazione include un protocollo LLM-as-Judge calibrato con un pilota BLV rumeno.
- Gli adattatori specifici per lingua funzionano meglio per rumeno e serbo.
- L'adattatore multilingue rimane competitivo per il tedesco.
- Pubblicato su arXiv con ID 2605.31080.
Entità
Istituzioni
- arXiv