PInVerify: Benchmark per la Verifica Attiva di Istanze nell'IA Incorporata
I ricercatori introducono la Verifica Attiva di Istanze (AIV), un compito in cui agenti incorporati devono selezionare punti di osservazione attorno a un oggetto candidato per verificare se corrisponde a una descrizione dettagliata in linguaggio naturale, affrontando il divario per cui la navigazione verso un oggetto target non garantisce la corretta identificazione dell'istanza a causa di sottili differenze negli attributi. Formalizzano l'AIV come un processo decisionale a orizzonte finito e presentano PInVerify, un benchmark offline con 3.000 episodi di valutazione su 18 categorie di oggetti, utilizzando acquisizioni multivista e una topologia di navigazione a 6 settori che include viste trappola e settori irraggiungibili. Le pipeline di base includono un approccio senza addestramento e un agente end-to-end ottimizzato con LoRA basato su modelli multimodali open-source.
Fatti principali
- La Verifica Attiva di Istanze (AIV) è un nuovo compito per agenti incorporati.
- L'AIV richiede che gli agenti selezionino attivamente punti di osservazione per verificare attributi dettagliati degli oggetti.
- Il benchmark PInVerify include 3.000 episodi di valutazione su 18 categorie di oggetti.
- Il benchmark utilizza acquisizioni multivista con una topologia di navigazione a 6 settori.
- Sono incluse viste trappola (navigabili ma non informative) e settori irraggiungibili.
- L'AIV è formalizzato come un processo decisionale a orizzonte finito.
- Le baseline includono una pipeline senza addestramento e un agente end-to-end ottimizzato con LoRA.
- Il lavoro è pubblicato su arXiv con ID 2605.30639.
Entità
Istituzioni
- arXiv