Benchmark di Diagrammi di Classi UML per Modelli Linguistici Visivi
Un nuovo benchmark per il question answering visivo basato su diagrammi di classi UML è stato creato da ricercatori, colmando una lacuna negli studi sui VLM che si concentravano principalmente su fotografie e grafici più semplici come i diagrammi a barre. Hanno sviluppato un ampio dataset di addestramento composto da 16.000 triple di immagini, domande e risposte. In questo contesto, un metodo di fine-tuning basato su LoRA ha superato le prestazioni di Qwen 3.5 27B, un VLM di recente introduzione tra i migliori.
Fatti principali
- I modelli linguistici visivi (VLM) hanno difficoltà nella comprensione dei diagrammi rispetto alle foto.
- Le ricerche precedenti si concentravano su diagrammi a barre e a linee, non su diagrammi informatici come i diagrammi di classi UML.
- È stato introdotto un nuovo benchmark per il question answering visivo sui diagrammi di classi UML.
- È stato costruito un dataset di addestramento di 16.000 triple immagine-domanda-risposta.
- Il fine-tuning basato su LoRA ha superato Qwen 3.5 27B nel benchmark UML.
- Il lavoro è pubblicato su arXiv nell'ambito della visione artificiale e del riconoscimento di pattern.
- Il dataset e il codice sono disponibili tramite Semantic Scholar e altri strumenti.
- La ricerca fa parte del framework arXivLabs.
Entità
Istituzioni
- arXiv
- Semantic Scholar
- arXivLabs