FoodMonitor: Benchmarking MLLMs per l'Analisi di Conformità Spiegabile nelle Cucine

other · 2026-05-26

FoodMonitor è stato lanciato dai ricercatori come benchmark per valutare i modelli linguistici multimodali su larga scala (MLLM) nell'ambito dell'analisi di conformità spiegabile nella videosorveglianza di cucine commerciali. Questo dataset include 477 clip video annotate con 3.307 violazioni, utilizzando un framework a doppio canale che affronta sia le infrazioni a livello di persona che a livello ambientale. Ogni annotazione specifica la regola violata, la natura dell'azione non conforme e l'individuo responsabile, completa di bounding box a livello di fotogramma. Un protocollo di valutazione completo impiega un sistema di matching a due stadi per valutare la localizzazione spaziale e la comprensione semantica. Questa iniziativa colma una lacuna negli attuali dataset di rilevamento di anomalie video, che si concentrano principalmente sulla classificazione binaria degli eventi, e mira a migliorare il monitoraggio della conformità basato sull'IA nella governance pubblica e nella sicurezza industriale attraverso prove verificabili e segnali di responsabilità.

Fatti principali

FoodMonitor è un benchmark per l'analisi di conformità spiegabile nella videosorveglianza di cucine commerciali.
Comprende 477 clip video con 3.307 annotazioni di violazioni.
Il dataset copre violazioni a livello di persona e a livello ambientale.
Ogni annotazione include la regola violata, il comportamento non conforme e chi lo ha commesso con bounding box a livello di fotogramma.
È stabilito un protocollo di valutazione unificato con un meccanismo di matching a due stadi.
I due stadi valutano separatamente la localizzazione spaziale e la comprensione semantica.
Gli attuali dataset di rilevamento di anomalie video si concentrano sulla classificazione binaria a livello di evento.
Il benchmark mira a fornire prove verificabili e segnali di responsabilità tracciabili.

Entità

—

Fonti

arXiv cs.AI — 2026-05-26