ARTFEED — Contemporary Art Intelligence

Il framework EUEA migliora la comprensione ambientale dei VLM per agenti incarnati

ai-technology · 2026-04-24

Un nuovo framework chiamato Environmental Understanding Embodied Agent (EUEA) migliora i modelli visione-linguaggio (VLM) per agenti incarnati che seguono istruzioni. Nonostante una forte percezione e ragionamento, i VLM spesso falliscono nella comprensione ambientale, basandosi su metadati. EUEA mette a punto quattro abilità fondamentali: percezione degli oggetti, pianificazione dei compiti, comprensione delle azioni e riconoscimento degli obiettivi. Introduce anche un passo di recupero utilizzando l'ottimizzazione delle politiche relative di gruppo (GRPO). Il framework consente un'esecuzione più affidabile dei compiti senza metadati ambientali.

Fatti principali

  • EUEA mette a punto quattro abilità fondamentali: percezione degli oggetti, pianificazione dei compiti, comprensione delle azioni, riconoscimento degli obiettivi.
  • Il framework affronta le limitazioni dei VLM nella comprensione ambientale per agenti incarnati.
  • Include un passo di recupero che sfrutta le abilità fondamentali e la fase GRPO.
  • Mira a ridurre la dipendenza dai metadati ambientali durante l'esecuzione.
  • Proposto nell'articolo arXiv 2604.19839.
  • Si concentra su agenti incarnati che seguono istruzioni.
  • I VLM mostrano una forte percezione ma falliscono nelle interazioni.
  • EUEA consente un'esecuzione più affidabile dei compiti.

Entità

Istituzioni

  • arXiv

Fonti