SketchVLM: I VLM generano sovrapposizioni SVG modificabili per spiegare il ragionamento visivo
Un nuovo framework chiamato SketchVLM è stato sviluppato dai ricercatori, consentendo ai modelli linguistico-visivi (VLM) come Gemini-3-Pro e GPT-5 di creare sovrapposizioni SVG modificabili sulle immagini senza richiedere addestramento preliminare. Questa innovazione permette ai VLM di articolare visivamente i propri processi di pensiero attraverso azioni come puntare, etichettare e disegnare, superando i vincoli degli output solo testuali. Nei test su sette benchmark che includevano compiti di ragionamento visivo (come la navigazione in labirinti e il conteggio di oggetti) e attività di disegno (come l'etichettatura di parti e il disegno di forme), SketchVLM ha dimostrato miglioramenti nell'accuratezza fino a +28,5 punti percentuali e una qualità delle annotazioni migliorata fino a 1,48 volte rispetto ai metodi tradizionali di editing di immagini e di sketching fine-tuned. Le annotazioni sono strettamente allineate con le risposte del modello e il framework è adattabile a vari modelli, funzionando in modalità di generazione a turno singolo.
Fatti principali
- SketchVLM è un framework senza addestramento e agnostico rispetto al modello per VLM.
- Produce sovrapposizioni SVG non distruttive e modificabili sulle immagini di input.
- Testato su VLM tra cui Gemini-3-Pro e GPT-5.
- Valutato su sette benchmark: navigazione in labirinti, previsione della traiettoria di una palla in caduta, conteggio di oggetti, etichettatura di parti, collegamento dei punti, disegno di forme attorno agli oggetti.
- Miglioramento dell'accuratezza nei compiti di ragionamento visivo fino a +28,5 punti percentuali.
- Miglioramento della qualità delle annotazioni fino a 1,48x rispetto ai baseline.
- Le annotazioni sono più fedeli alla risposta dichiarata dal modello.
- Processo di generazione a turno singolo.
Entità
—