Il framework EUEA migliora la comprensione ambientale dei VLM per agenti incarnati

ai-technology · 2026-04-24

Un nuovo framework chiamato Environmental Understanding Embodied Agent (EUEA) migliora i modelli visione-linguaggio (VLM) per agenti incarnati che seguono istruzioni. Nonostante una forte percezione e ragionamento, i VLM spesso falliscono nella comprensione ambientale, basandosi su metadati. EUEA mette a punto quattro abilità fondamentali: percezione degli oggetti, pianificazione dei compiti, comprensione delle azioni e riconoscimento degli obiettivi. Introduce anche un passo di recupero utilizzando l'ottimizzazione delle politiche relative di gruppo (GRPO). Il framework consente un'esecuzione più affidabile dei compiti senza metadati ambientali.

Fatti principali

EUEA mette a punto quattro abilità fondamentali: percezione degli oggetti, pianificazione dei compiti, comprensione delle azioni, riconoscimento degli obiettivi.
Il framework affronta le limitazioni dei VLM nella comprensione ambientale per agenti incarnati.
Include un passo di recupero che sfrutta le abilità fondamentali e la fase GRPO.
Mira a ridurre la dipendenza dai metadati ambientali durante l'esecuzione.
Proposto nell'articolo arXiv 2604.19839.
Si concentra su agenti incarnati che seguono istruzioni.
I VLM mostrano una forte percezione ma falliscono nelle interazioni.
EUEA consente un'esecuzione più affidabile dei compiti.

Il framework EUEA migliora la comprensione ambientale dei VLM per agenti incarnati

Fatti principali

Entità

Istituzioni

Fonti