ARTFEED — Contemporary Art Intelligence

PInVerify: Benchmark per la Verifica Attiva di Istanze nell'IA Incorporata

other · 2026-06-01

I ricercatori introducono la Verifica Attiva di Istanze (AIV), un compito in cui agenti incorporati devono selezionare punti di osservazione attorno a un oggetto candidato per verificare se corrisponde a una descrizione dettagliata in linguaggio naturale, affrontando il divario per cui la navigazione verso un oggetto target non garantisce la corretta identificazione dell'istanza a causa di sottili differenze negli attributi. Formalizzano l'AIV come un processo decisionale a orizzonte finito e presentano PInVerify, un benchmark offline con 3.000 episodi di valutazione su 18 categorie di oggetti, utilizzando acquisizioni multivista e una topologia di navigazione a 6 settori che include viste trappola e settori irraggiungibili. Le pipeline di base includono un approccio senza addestramento e un agente end-to-end ottimizzato con LoRA basato su modelli multimodali open-source.

Fatti principali

  • La Verifica Attiva di Istanze (AIV) è un nuovo compito per agenti incorporati.
  • L'AIV richiede che gli agenti selezionino attivamente punti di osservazione per verificare attributi dettagliati degli oggetti.
  • Il benchmark PInVerify include 3.000 episodi di valutazione su 18 categorie di oggetti.
  • Il benchmark utilizza acquisizioni multivista con una topologia di navigazione a 6 settori.
  • Sono incluse viste trappola (navigabili ma non informative) e settori irraggiungibili.
  • L'AIV è formalizzato come un processo decisionale a orizzonte finito.
  • Le baseline includono una pipeline senza addestramento e un agente end-to-end ottimizzato con LoRA.
  • Il lavoro è pubblicato su arXiv con ID 2605.30639.

Entità

Istituzioni

  • arXiv

Fonti