PInVerify: Benchmark per la Verifica Attiva di Istanze nell'IA Incorporata

other · 2026-06-01

I ricercatori introducono la Verifica Attiva di Istanze (AIV), un compito in cui agenti incorporati devono selezionare punti di osservazione attorno a un oggetto candidato per verificare se corrisponde a una descrizione dettagliata in linguaggio naturale, affrontando il divario per cui la navigazione verso un oggetto target non garantisce la corretta identificazione dell'istanza a causa di sottili differenze negli attributi. Formalizzano l'AIV come un processo decisionale a orizzonte finito e presentano PInVerify, un benchmark offline con 3.000 episodi di valutazione su 18 categorie di oggetti, utilizzando acquisizioni multivista e una topologia di navigazione a 6 settori che include viste trappola e settori irraggiungibili. Le pipeline di base includono un approccio senza addestramento e un agente end-to-end ottimizzato con LoRA basato su modelli multimodali open-source.

Fatti principali

La Verifica Attiva di Istanze (AIV) è un nuovo compito per agenti incorporati.
L'AIV richiede che gli agenti selezionino attivamente punti di osservazione per verificare attributi dettagliati degli oggetti.
Il benchmark PInVerify include 3.000 episodi di valutazione su 18 categorie di oggetti.
Il benchmark utilizza acquisizioni multivista con una topologia di navigazione a 6 settori.
Sono incluse viste trappola (navigabili ma non informative) e settori irraggiungibili.
L'AIV è formalizzato come un processo decisionale a orizzonte finito.
Le baseline includono una pipeline senza addestramento e un agente end-to-end ottimizzato con LoRA.
Il lavoro è pubblicato su arXiv con ID 2605.30639.

PInVerify: Benchmark per la Verifica Attiva di Istanze nell'IA Incorporata

Fatti principali

Entità

Istituzioni

Fonti