Benchmark LongAct e Agente HoloMind per Compiti Domestici a Lungo Termine

ai-technology · 2026-05-16

Presentiamo LongAct, un nuovo benchmark che valuta l'autonomia a livello di pianificazione in attività domestiche a lungo termine definite da istruzioni in forma libera. Questa iniziativa colma una lacuna negli attuali benchmark di IA incarnata, che si concentrano principalmente su navigazione e manipolazione a breve termine. LongAct semplifica le complessità del controllo di basso livello specifico dell'incarnazione, consentendo di concentrarsi su abilità cognitive avanzate come la comprensione delle istruzioni, la gestione delle dipendenze, il mantenimento della memoria e la pianificazione adattiva. Insieme a LongAct, i ricercatori presentano HoloMind, un agente basato su VLM che incorpora un pianificatore gerarchico basato su DAG per compiti a lungo termine, una Memoria Spaziale Multimodale per la modellazione continua del mondo, una Memoria Episodica per riutilizzare esperienze e un Critico globale per la supervisione riflessiva. I test con GPT-5 e Qwen3-VL mostrano che HoloMind migliora significativamente le prestazioni in compiti a lungo termine.

Fatti principali

LongAct è un benchmark per compiti domestici a lungo termine con istruzioni in forma libera.
Gli attuali benchmark di IA incarnata enfatizzano navigazione o manipolazione a breve termine.
LongAct astrae dal controllo di basso livello specifico dell'incarnazione.
HoloMind è un agente basato su VLM con un pianificatore basato su DAG.
HoloMind include Memoria Spaziale Multimodale, Memoria Episodica e un Critico globale.
Gli esperimenti hanno utilizzato i modelli GPT-5 e Qwen3-VL.
HoloMind migliora sostanzialmente le prestazioni in compiti a lungo termine.
Il lavoro è pubblicato su arXiv con ID 2605.14504.

Benchmark LongAct e Agente HoloMind per Compiti Domestici a Lungo Termine

Fatti principali

Entità

Istituzioni

Fonti