SketchVLM: I VLM generano sovrapposizioni SVG modificabili per spiegare il ragionamento visivo

ai-technology · 2026-04-29

Un nuovo framework chiamato SketchVLM è stato sviluppato dai ricercatori, consentendo ai modelli linguistico-visivi (VLM) come Gemini-3-Pro e GPT-5 di creare sovrapposizioni SVG modificabili sulle immagini senza richiedere addestramento preliminare. Questa innovazione permette ai VLM di articolare visivamente i propri processi di pensiero attraverso azioni come puntare, etichettare e disegnare, superando i vincoli degli output solo testuali. Nei test su sette benchmark che includevano compiti di ragionamento visivo (come la navigazione in labirinti e il conteggio di oggetti) e attività di disegno (come l'etichettatura di parti e il disegno di forme), SketchVLM ha dimostrato miglioramenti nell'accuratezza fino a +28,5 punti percentuali e una qualità delle annotazioni migliorata fino a 1,48 volte rispetto ai metodi tradizionali di editing di immagini e di sketching fine-tuned. Le annotazioni sono strettamente allineate con le risposte del modello e il framework è adattabile a vari modelli, funzionando in modalità di generazione a turno singolo.

Fatti principali

SketchVLM è un framework senza addestramento e agnostico rispetto al modello per VLM.
Produce sovrapposizioni SVG non distruttive e modificabili sulle immagini di input.
Testato su VLM tra cui Gemini-3-Pro e GPT-5.
Valutato su sette benchmark: navigazione in labirinti, previsione della traiettoria di una palla in caduta, conteggio di oggetti, etichettatura di parti, collegamento dei punti, disegno di forme attorno agli oggetti.
Miglioramento dell'accuratezza nei compiti di ragionamento visivo fino a +28,5 punti percentuali.
Miglioramento della qualità delle annotazioni fino a 1,48x rispetto ai baseline.
Le annotazioni sono più fedeli alla risposta dichiarata dal modello.
Processo di generazione a turno singolo.

Entità

—

Fonti

arXiv cs.AI — 2026-04-28