Il framework EUEA migliora la comprensione ambientale dei VLM per agenti incarnati
Un nuovo framework chiamato Environmental Understanding Embodied Agent (EUEA) migliora i modelli visione-linguaggio (VLM) per agenti incarnati che seguono istruzioni. Nonostante una forte percezione e ragionamento, i VLM spesso falliscono nella comprensione ambientale, basandosi su metadati. EUEA mette a punto quattro abilità fondamentali: percezione degli oggetti, pianificazione dei compiti, comprensione delle azioni e riconoscimento degli obiettivi. Introduce anche un passo di recupero utilizzando l'ottimizzazione delle politiche relative di gruppo (GRPO). Il framework consente un'esecuzione più affidabile dei compiti senza metadati ambientali.
Fatti principali
- EUEA mette a punto quattro abilità fondamentali: percezione degli oggetti, pianificazione dei compiti, comprensione delle azioni, riconoscimento degli obiettivi.
- Il framework affronta le limitazioni dei VLM nella comprensione ambientale per agenti incarnati.
- Include un passo di recupero che sfrutta le abilità fondamentali e la fase GRPO.
- Mira a ridurre la dipendenza dai metadati ambientali durante l'esecuzione.
- Proposto nell'articolo arXiv 2604.19839.
- Si concentra su agenti incarnati che seguono istruzioni.
- I VLM mostrano una forte percezione ma falliscono nelle interazioni.
- EUEA consente un'esecuzione più affidabile dei compiti.
Entità
Istituzioni
- arXiv