ARTFEED — Contemporary Art Intelligence

SketchVLM: I VLM generano sovrapposizioni SVG modificabili per spiegare il ragionamento visivo

ai-technology · 2026-04-29

Un nuovo framework chiamato SketchVLM è stato sviluppato dai ricercatori, consentendo ai modelli linguistico-visivi (VLM) come Gemini-3-Pro e GPT-5 di creare sovrapposizioni SVG modificabili sulle immagini senza richiedere addestramento preliminare. Questa innovazione permette ai VLM di articolare visivamente i propri processi di pensiero attraverso azioni come puntare, etichettare e disegnare, superando i vincoli degli output solo testuali. Nei test su sette benchmark che includevano compiti di ragionamento visivo (come la navigazione in labirinti e il conteggio di oggetti) e attività di disegno (come l'etichettatura di parti e il disegno di forme), SketchVLM ha dimostrato miglioramenti nell'accuratezza fino a +28,5 punti percentuali e una qualità delle annotazioni migliorata fino a 1,48 volte rispetto ai metodi tradizionali di editing di immagini e di sketching fine-tuned. Le annotazioni sono strettamente allineate con le risposte del modello e il framework è adattabile a vari modelli, funzionando in modalità di generazione a turno singolo.

Fatti principali

  • SketchVLM è un framework senza addestramento e agnostico rispetto al modello per VLM.
  • Produce sovrapposizioni SVG non distruttive e modificabili sulle immagini di input.
  • Testato su VLM tra cui Gemini-3-Pro e GPT-5.
  • Valutato su sette benchmark: navigazione in labirinti, previsione della traiettoria di una palla in caduta, conteggio di oggetti, etichettatura di parti, collegamento dei punti, disegno di forme attorno agli oggetti.
  • Miglioramento dell'accuratezza nei compiti di ragionamento visivo fino a +28,5 punti percentuali.
  • Miglioramento della qualità delle annotazioni fino a 1,48x rispetto ai baseline.
  • Le annotazioni sono più fedeli alla risposta dichiarata dal modello.
  • Processo di generazione a turno singolo.

Entità

Fonti