ARTFEED — Contemporary Art Intelligence

Il Framework VeriGraph Migliora la Pianificazione dei Compiti Robotici con Scene Graphs e Modelli Visione-Linguaggio

ai-technology · 2026-04-20

VeriGraph, un nuovo framework, combina modelli visione-linguaggio per la pianificazione robotica garantendo la fattibilità delle azioni attraverso scene graphs. Generando scene graphs da immagini, identifica efficacemente gli oggetti essenziali e le loro relazioni spaziali, facilitando la verifica e gli aggiustamenti accurati del piano. Il sistema utilizza questi scene graphs per valutare e modificare iterativamente le sequenze di azioni generate da un pianificatore di compiti basato su un modello linguistico di grandi dimensioni (LLM), garantendo il rispetto dei vincoli e la fattibilità delle azioni. Questo metodo migliora notevolmente i tassi di completamento dei compiti in varie attività di manipolazione, ottenendo un aumento del 58% nei compiti basati sul linguaggio, del 56% nei puzzle tangram e del 30% nei compiti basati su immagini rispetto agli approcci tradizionali. VeriGraph affronta le carenze dei modelli visione-linguaggio esistenti che spesso producono sequenze di azioni errate. I recenti progressi in questi modelli hanno creato nuove opportunità per la pianificazione dei compiti robotici, con i scene graphs che fungono da rappresentazione intermedia cruciale per una migliore verifica del piano.

Fatti principali

  • VeriGraph integra modelli visione-linguaggio per la pianificazione robotica con verifica della fattibilità delle azioni
  • Il framework utilizza scene graphs come rappresentazione intermedia per catturare oggetti e relazioni spaziali
  • I scene graphs vengono generati da immagini di input per consentire la verifica e il perfezionamento del piano
  • Il sistema verifica e corregge iterativamente le sequenze di azioni da un pianificatore di compiti basato su LLM
  • VeriGraph garantisce il rispetto dei vincoli e l'eseguibilità delle azioni
  • I tassi di completamento dei compiti migliorano del 58% nei compiti basati sul linguaggio rispetto alle baseline
  • I miglioramenti delle prestazioni includono un aumento del 56% nei compiti con puzzle tangram
  • I compiti basati su immagini mostrano un miglioramento del 30% rispetto ai metodi baseline

Entità

Fonti