PStar Framework Riduce le Allucinazioni nei Modelli Visione-Linguaggio per la Robotica
I ricercatori propongono Pseudocode-guided Structured Reasoning (PStar), un framework che seleziona adattivamente percorsi di ragionamento strutturato in pseudocodice per aiutare i Modelli Visione-Linguaggio (VLM) a eseguire un ragionamento flessibile e passo-passo. L'approccio affronta la suscettibilità dei VLM alle allucinazioni, che causano fallimenti critici nell'automazione robotica. PStar progetta funzioni di ragionamento astratto e una libreria di pseudocodice strutturato che rappresenta strategie di ragionamento modulari. Viene introdotto un Difficulty Feature Vector (DFV) per guidare la selezione del percorso. Il lavoro mira a migliorare la sicurezza e l'affidabilità nelle implementazioni fisiche.
Fatti principali
- 1. PStar sta per Pseudocode-guided Structured Reasoning.
- 2. Il framework è progettato per i Modelli Visione-Linguaggio (VLM).
- 3. I VLM sono utilizzati nell'automazione robotica per analizzare comandi e percepire ambienti.
- 4. Le allucinazioni nei VLM pongono rischi per la sicurezza e l'affidabilità.
- 5. PStar utilizza percorsi di ragionamento strutturato in pseudocodice.
- 6. Include una libreria di funzioni di ragionamento astratto.
- 7. Un Difficulty Feature Vector (DFV) guida la selezione adattiva del percorso.
- 8. La ricerca è pubblicata su arXiv con ID 2605.19663.
Entità
Istituzioni
- arXiv