FoodMonitor: Benchmarking MLLMs per l'Analisi di Conformità Spiegabile nelle Cucine
FoodMonitor è stato lanciato dai ricercatori come benchmark per valutare i modelli linguistici multimodali su larga scala (MLLM) nell'ambito dell'analisi di conformità spiegabile nella videosorveglianza di cucine commerciali. Questo dataset include 477 clip video annotate con 3.307 violazioni, utilizzando un framework a doppio canale che affronta sia le infrazioni a livello di persona che a livello ambientale. Ogni annotazione specifica la regola violata, la natura dell'azione non conforme e l'individuo responsabile, completa di bounding box a livello di fotogramma. Un protocollo di valutazione completo impiega un sistema di matching a due stadi per valutare la localizzazione spaziale e la comprensione semantica. Questa iniziativa colma una lacuna negli attuali dataset di rilevamento di anomalie video, che si concentrano principalmente sulla classificazione binaria degli eventi, e mira a migliorare il monitoraggio della conformità basato sull'IA nella governance pubblica e nella sicurezza industriale attraverso prove verificabili e segnali di responsabilità.
Fatti principali
- FoodMonitor è un benchmark per l'analisi di conformità spiegabile nella videosorveglianza di cucine commerciali.
- Comprende 477 clip video con 3.307 annotazioni di violazioni.
- Il dataset copre violazioni a livello di persona e a livello ambientale.
- Ogni annotazione include la regola violata, il comportamento non conforme e chi lo ha commesso con bounding box a livello di fotogramma.
- È stabilito un protocollo di valutazione unificato con un meccanismo di matching a due stadi.
- I due stadi valutano separatamente la localizzazione spaziale e la comprensione semantica.
- Gli attuali dataset di rilevamento di anomalie video si concentrano sulla classificazione binaria a livello di evento.
- Il benchmark mira a fornire prove verificabili e segnali di responsabilità tracciabili.
Entità
—