Flat-Pack Bench: Un Nuovo Benchmark per Testare gli LVLM sul Montaggio di Mobili

ai-technology · 2026-05-23

I ricercatori hanno introdotto Flat-Pack Bench, un benchmark progettato per valutare i Large Vision-Language Models (LVLM) nella comprensione spazio-temporale fine attraverso compiti di montaggio di mobili. I benchmark esistenti per la comprensione video si concentrano su compiti a grana grossa come segmentazione delle azioni, classificazione, didascalia e recupero, spesso basandosi su entità facilmente identificabili come oggetti domestici, animali e soggetti umani. Ciò limita la loro applicabilità a scenari video complessi e reali. Flat-Pack Bench colma questa lacuna richiedendo una comprensione passo-passo delle azioni di montaggio, inclusi l'ordinamento temporale, la localizzazione temporale degli stati di montaggio e l'abbinamento delle parti. Il benchmark mira a spingere gli LVLM verso una comprensione video più sfumata, necessaria per applicazioni come il montaggio di mobili e la cucina.

Fatti principali

Flat-Pack Bench è un nuovo benchmark per valutare gli LVLM su compiti di montaggio di mobili.
Si concentra sulla comprensione spazio-temporale fine.
I benchmark esistenti sono limitati a compiti a grana grossa ed entità semplici.
Il benchmark include ordinamento temporale, localizzazione e abbinamento delle parti.
È mirato ad applicazioni come il montaggio di mobili e la cucina.
Il lavoro è pubblicato su arXiv con ID 2605.21625.
Il tipo di annuncio è cross.
Il benchmark mira a colmare le lacune nelle attuali valutazioni della comprensione video.

Flat-Pack Bench: Un Nuovo Benchmark per Testare gli LVLM sul Montaggio di Mobili

Fatti principali

Entità

Istituzioni

Fonti