ARTFEED — Contemporary Art Intelligence

PStar Framework Riduce le Allucinazioni nei Modelli Visione-Linguaggio per la Robotica

ai-technology · 2026-05-20

I ricercatori propongono Pseudocode-guided Structured Reasoning (PStar), un framework che seleziona adattivamente percorsi di ragionamento strutturato in pseudocodice per aiutare i Modelli Visione-Linguaggio (VLM) a eseguire un ragionamento flessibile e passo-passo. L'approccio affronta la suscettibilità dei VLM alle allucinazioni, che causano fallimenti critici nell'automazione robotica. PStar progetta funzioni di ragionamento astratto e una libreria di pseudocodice strutturato che rappresenta strategie di ragionamento modulari. Viene introdotto un Difficulty Feature Vector (DFV) per guidare la selezione del percorso. Il lavoro mira a migliorare la sicurezza e l'affidabilità nelle implementazioni fisiche.

Fatti principali

  • 1. PStar sta per Pseudocode-guided Structured Reasoning.
  • 2. Il framework è progettato per i Modelli Visione-Linguaggio (VLM).
  • 3. I VLM sono utilizzati nell'automazione robotica per analizzare comandi e percepire ambienti.
  • 4. Le allucinazioni nei VLM pongono rischi per la sicurezza e l'affidabilità.
  • 5. PStar utilizza percorsi di ragionamento strutturato in pseudocodice.
  • 6. Include una libreria di funzioni di ragionamento astratto.
  • 7. Un Difficulty Feature Vector (DFV) guida la selezione adattiva del percorso.
  • 8. La ricerca è pubblicata su arXiv con ID 2605.19663.

Entità

Istituzioni

  • arXiv

Fonti