Il Framework VeriGraph Migliora la Pianificazione dei Compiti Robotici con Scene Graphs e Modelli Visione-Linguaggio
VeriGraph, un nuovo framework, combina modelli visione-linguaggio per la pianificazione robotica garantendo la fattibilità delle azioni attraverso scene graphs. Generando scene graphs da immagini, identifica efficacemente gli oggetti essenziali e le loro relazioni spaziali, facilitando la verifica e gli aggiustamenti accurati del piano. Il sistema utilizza questi scene graphs per valutare e modificare iterativamente le sequenze di azioni generate da un pianificatore di compiti basato su un modello linguistico di grandi dimensioni (LLM), garantendo il rispetto dei vincoli e la fattibilità delle azioni. Questo metodo migliora notevolmente i tassi di completamento dei compiti in varie attività di manipolazione, ottenendo un aumento del 58% nei compiti basati sul linguaggio, del 56% nei puzzle tangram e del 30% nei compiti basati su immagini rispetto agli approcci tradizionali. VeriGraph affronta le carenze dei modelli visione-linguaggio esistenti che spesso producono sequenze di azioni errate. I recenti progressi in questi modelli hanno creato nuove opportunità per la pianificazione dei compiti robotici, con i scene graphs che fungono da rappresentazione intermedia cruciale per una migliore verifica del piano.
Fatti principali
- VeriGraph integra modelli visione-linguaggio per la pianificazione robotica con verifica della fattibilità delle azioni
- Il framework utilizza scene graphs come rappresentazione intermedia per catturare oggetti e relazioni spaziali
- I scene graphs vengono generati da immagini di input per consentire la verifica e il perfezionamento del piano
- Il sistema verifica e corregge iterativamente le sequenze di azioni da un pianificatore di compiti basato su LLM
- VeriGraph garantisce il rispetto dei vincoli e l'eseguibilità delle azioni
- I tassi di completamento dei compiti migliorano del 58% nei compiti basati sul linguaggio rispetto alle baseline
- I miglioramenti delle prestazioni includono un aumento del 56% nei compiti con puzzle tangram
- I compiti basati su immagini mostrano un miglioramento del 30% rispetto ai metodi baseline
Entità
—