Introdotto il Benchmark MHPR per la Valutazione Umano-Centrica dei LVLM
Un nuovo framework di valutazione denominato Multidimensional Human Perception and Reasoning (MHPR) è stato lanciato per valutare i modelli linguistico-visivi (LVLM) in scenari di interazione umana. Questo framework risponde alla domanda di valutazioni approfondite esaminando interazioni singole e multiple tra persone, nonché interazioni tra umani e oggetti. MHPR è organizzato in quattro componenti distinte: Dati Grezzi con Didascalie, Dati per il Fine-Tuning Supervisionato, Dati per l'Apprendimento per Rinforzo e Dati di Test. Inoltre, include un sistema automatizzato per generare didascalie e risposte a domande visive, garantendo annotazioni di alta qualità. Questa ricerca è documentata nel repository di preprint arXiv con l'identificatore 2605.03485.
Fatti principali
- MHPR è un benchmark completo per la percezione e il ragionamento congiunti su scene umano-centriche.
- Copre le dimensioni individuale, multi-persona e di interazione umano-oggetto.
- Il benchmark comprende quattro livelli di dati: C-RD, SFT-D, RL-D e T-D.
- Un pipeline automatizzato (ACVG) genera didascalie e dati VQA.
- ACVG utilizza la decomposizione degli attributi per categoria, la riscrittura specifica per attributo e il voto multi-modello.
- La valutazione si concentra su attributi a grana fine come aspetto, abbigliamento, posa e parti del corpo.
- I modelli linguistico-visivi all'avanguardia vengono valutati su questi attributi.
- La ricerca è pubblicata su arXiv con ID 2605.03485.
Entità
Istituzioni
- arXiv