ARTFEED — Contemporary Art Intelligence

Il Framework HELM Affronta le Carenze nella Manipolazione a Lungo Orizzonte nei Modelli Visione-Linguaggio-Azione

ai-technology · 2026-04-22

Un nuovo framework chiamato HELM affronta i fallimenti persistenti nei modelli Visione-Linguaggio-Azione durante compiti di manipolazione estesi. Questi modelli, nonostante le prestazioni elevate su sequenze brevi, incontrano sistematicamente difficoltà con operazioni a lungo orizzonte. La ricerca identifica tre problemi fondamentali nel ciclo di esecuzione: un divario di memoria, un divario di verifica e un divario di recupero. Il design model-agnostic di HELM incorpora un Modulo di Memoria Episodica che recupera la cronologia cruciale del compito utilizzando keyframe indicizzati con CLIP. Un Verificatore di Stato appreso predice il fallimento dell'azione prima dell'esecuzione analizzando l'osservazione, l'azione, il sottobiettivo e il contesto condizionato dalla memoria. Questo componente supera costantemente i controlli di fattibilità basati su regole e le baseline di incertezza d'insieme. Un Controller di Controllo gestisce le funzioni di rollback e riprogrammazione. Il lavoro dimostra che il semplice prolungamento della lunghezza del contesto non risolve queste carenze in ambienti di esecuzione reattiva. Il Verificatore di Stato rappresenta il principale contributo di apprendimento del framework. La sua efficacia si dimostra dipendente dall'analisi contestuale integrata.

Fatti principali

  • HELM è un framework model-agnostic per modelli Visione-Linguaggio-Azione.
  • Affronta tre carenze nel ciclo di esecuzione: divario di memoria, divario di verifica, divario di recupero.
  • Il framework include un Modulo di Memoria Episodica che utilizza keyframe indicizzati con CLIP.
  • Un Verificatore di Stato appreso predice il fallimento dell'azione prima dell'esecuzione.
  • Il Verificatore di Stato supera i controlli di fattibilità basati su regole e le baseline di incertezza d'insieme.
  • Un Controller di Controllo esegue rollback e riprogrammazione.
  • I modelli VLA falliscono sistematicamente su compiti di manipolazione a lungo orizzonte nonostante le forti prestazioni a breve orizzonte.
  • Il semplice prolungamento della lunghezza del contesto non risolve i fallimenti in ambienti di esecuzione reattiva.

Entità

Istituzioni

  • arXiv

Fonti