ARTFEED — Contemporary Art Intelligence

Il framework PRISM colma il divario percezione-ragionamento nell'IA embodied

ai-technology · 2026-05-09

Un nuovo framework chiamato PRISM è stato sviluppato dai ricercatori per migliorare l'integrazione di percezione e decisione negli agenti embodied basati su LLM. Questo framework affronta il divario esistente nella percezione, ragionamento e decisione riscontrato nei modelli standalone Vision-Language (VLM), che spesso trascurano dettagli visivi essenziali. PRISM utilizza una pipeline dinamica di domanda-risposta (DQA), consentendo all'LLM di criticare le descrizioni della scena, porre domande orientate agli obiettivi e creare un riepilogo conciso dell'immagine, anziché accettare semplicemente gli output del VLM. Questo processo interattivo produce una comprensione focalizzata e orientata al compito dell'ambiente circostante. Testato sui benchmark ALFWorld e Room-to-Room (R2R), PRISM ha superato significativamente i modelli basati su immagini leader. Il framework è open-source e il relativo articolo è disponibile su arXiv con identificatore 2605.05407.

Fatti principali

  • PRISM è un framework che accoppia percezione (VLM) e decisione (LLM) tramite una pipeline dinamica di domanda-risposta.
  • Affronta il divario percezione-ragionamento-decisione nei VLM standalone.
  • L'LLM critica la descrizione del VLM e lo interroga con domande orientate agli obiettivi.
  • PRISM supera i modelli basati su immagini all'avanguardia sui benchmark ALFWorld e R2R.
  • Il framework è completamente open-source.
  • L'articolo è pubblicato su arXiv con ID 2605.05407.

Entità

Istituzioni

  • arXiv

Fonti