Flat-Pack Bench: Un Nuovo Benchmark per Testare gli LVLM sul Montaggio di Mobili
I ricercatori hanno introdotto Flat-Pack Bench, un benchmark progettato per valutare i Large Vision-Language Models (LVLM) nella comprensione spazio-temporale fine attraverso compiti di montaggio di mobili. I benchmark esistenti per la comprensione video si concentrano su compiti a grana grossa come segmentazione delle azioni, classificazione, didascalia e recupero, spesso basandosi su entità facilmente identificabili come oggetti domestici, animali e soggetti umani. Ciò limita la loro applicabilità a scenari video complessi e reali. Flat-Pack Bench colma questa lacuna richiedendo una comprensione passo-passo delle azioni di montaggio, inclusi l'ordinamento temporale, la localizzazione temporale degli stati di montaggio e l'abbinamento delle parti. Il benchmark mira a spingere gli LVLM verso una comprensione video più sfumata, necessaria per applicazioni come il montaggio di mobili e la cucina.
Fatti principali
- Flat-Pack Bench è un nuovo benchmark per valutare gli LVLM su compiti di montaggio di mobili.
- Si concentra sulla comprensione spazio-temporale fine.
- I benchmark esistenti sono limitati a compiti a grana grossa ed entità semplici.
- Il benchmark include ordinamento temporale, localizzazione e abbinamento delle parti.
- È mirato ad applicazioni come il montaggio di mobili e la cucina.
- Il lavoro è pubblicato su arXiv con ID 2605.21625.
- Il tipo di annuncio è cross.
- Il benchmark mira a colmare le lacune nelle attuali valutazioni della comprensione video.
Entità
Istituzioni
- arXiv