ARTFEED — Contemporary Art Intelligence

Il framework VIGIL separa il completamento del compito dall'autoterminazione nell'IA incarnata

ai-technology · 2026-05-12

Un nuovo framework di valutazione chiamato VIGIL (Verification of Goal-completion In Lifelong agents) è stato lanciato per valutare indipendentemente la capacità di un agente incarnato di concludere appropriatamente un compito al suo completamento, definito 'impegno terminale'. I benchmark tradizionali mescolano tre diversi tipi di fallimento: non riuscire a completare il compito, finirlo ma non fermarsi, e rivendicare il successo senza prove adeguate. VIGIL risolve questo problema richiedendo agli agenti di funzionare esclusivamente su input RGB egocentrici senza feedback di successo dell'azione, concludendo ogni episodio con un report semantico validato rispetto a uno stato del mondo nascosto. Questo approccio genera due punteggi distinti: completamento dello stato del mondo (W) e successo del benchmark (B), con B che richiede un report terminale corretto. Questa separazione consente quattro categorie di esito: esecuzione mancata, deriva post-conseguimento, impegno non supportato e successo verificato. Il framework è stato descritto in un preprint su arXiv (2605.08747v1).

Fatti principali

  • VIGIL sta per Verification of Goal-completion In Lifelong agents.
  • Misura l'impegno terminale indipendentemente dal completamento dello stato del mondo.
  • Le valutazioni standard raggruppano tre distinti tipi di fallimento in un unico fallimento del benchmark.
  • Gli agenti osservano solo RGB egocentrico e non ricevono segnali di successo dell'azione.
  • Gli episodi terminano con un report semantico verificato rispetto allo stato del mondo nascosto.
  • Vengono prodotti due punteggi: completamento dello stato del mondo (W) e successo del benchmark (B).
  • Quattro categorie di esito sono distinguibili: esecuzione mancata, deriva post-conseguimento, impegno non supportato e successo verificato.
  • Il framework è stato pubblicato su arXiv con ID 2605.08747v1.

Entità

Istituzioni

  • arXiv

Fonti