Introdotto il Benchmark MHPR per la Valutazione Umano-Centrica dei LVLM

ai-technology · 2026-05-07

Un nuovo framework di valutazione denominato Multidimensional Human Perception and Reasoning (MHPR) è stato lanciato per valutare i modelli linguistico-visivi (LVLM) in scenari di interazione umana. Questo framework risponde alla domanda di valutazioni approfondite esaminando interazioni singole e multiple tra persone, nonché interazioni tra umani e oggetti. MHPR è organizzato in quattro componenti distinte: Dati Grezzi con Didascalie, Dati per il Fine-Tuning Supervisionato, Dati per l'Apprendimento per Rinforzo e Dati di Test. Inoltre, include un sistema automatizzato per generare didascalie e risposte a domande visive, garantendo annotazioni di alta qualità. Questa ricerca è documentata nel repository di preprint arXiv con l'identificatore 2605.03485.

Fatti principali

MHPR è un benchmark completo per la percezione e il ragionamento congiunti su scene umano-centriche.
Copre le dimensioni individuale, multi-persona e di interazione umano-oggetto.
Il benchmark comprende quattro livelli di dati: C-RD, SFT-D, RL-D e T-D.
Un pipeline automatizzato (ACVG) genera didascalie e dati VQA.
ACVG utilizza la decomposizione degli attributi per categoria, la riscrittura specifica per attributo e il voto multi-modello.
La valutazione si concentra su attributi a grana fine come aspetto, abbigliamento, posa e parti del corpo.
I modelli linguistico-visivi all'avanguardia vengono valutati su questi attributi.
La ricerca è pubblicata su arXiv con ID 2605.03485.

Introdotto il Benchmark MHPR per la Valutazione Umano-Centrica dei LVLM

Fatti principali

Entità

Istituzioni

Fonti