Il framework PRISM colma il divario percezione-ragionamento nell'IA embodied
Un nuovo framework chiamato PRISM è stato sviluppato dai ricercatori per migliorare l'integrazione di percezione e decisione negli agenti embodied basati su LLM. Questo framework affronta il divario esistente nella percezione, ragionamento e decisione riscontrato nei modelli standalone Vision-Language (VLM), che spesso trascurano dettagli visivi essenziali. PRISM utilizza una pipeline dinamica di domanda-risposta (DQA), consentendo all'LLM di criticare le descrizioni della scena, porre domande orientate agli obiettivi e creare un riepilogo conciso dell'immagine, anziché accettare semplicemente gli output del VLM. Questo processo interattivo produce una comprensione focalizzata e orientata al compito dell'ambiente circostante. Testato sui benchmark ALFWorld e Room-to-Room (R2R), PRISM ha superato significativamente i modelli basati su immagini leader. Il framework è open-source e il relativo articolo è disponibile su arXiv con identificatore 2605.05407.
Fatti principali
- PRISM è un framework che accoppia percezione (VLM) e decisione (LLM) tramite una pipeline dinamica di domanda-risposta.
- Affronta il divario percezione-ragionamento-decisione nei VLM standalone.
- L'LLM critica la descrizione del VLM e lo interroga con domande orientate agli obiettivi.
- PRISM supera i modelli basati su immagini all'avanguardia sui benchmark ALFWorld e R2R.
- Il framework è completamente open-source.
- L'articolo è pubblicato su arXiv con ID 2605.05407.
Entità
Istituzioni
- arXiv