CaC: Modello di Ricompensa Gerarchico Spazio-Temporale per il Rilevamento di Anomalie Video

ai-technology · 2026-05-13

I ricercatori hanno introdotto Concentrate and Concentrate (CaC), un modello di ricompensa per anomalie che passa dal grossolano al fine, sfruttando i modelli Visione-Linguaggio. Nella fase di inferenza, conduce un'analisi temporale completa per identificare segmenti temporali anomali, seguita da un grounding spaziale dettagliato all'interno di questi intervalli definiti, impiegando un ragionamento strutturato spazio-temporale a catena di pensiero per conclusioni robuste. Per supportare questo modello, il team ha creato il primo dataset di anomalie video su larga scala, con annotazioni per fotogramma di bounding box, finestre temporali di anomalia e etichette di attribuzione dettagliate. Il loro framework di addestramento è strutturato in tre fasi: il modello acquisisce prima l'ancoraggio spaziale e temporale attraverso il fine-tuning supervisionato sia su singoli che su più fotogrammi, quindi viene sottoposto a apprendimento per rinforzo utilizzando l'ottimizzazione della politica di gruppo a due turni (GRPO), migliorando i modelli di ricompensa video oltre le tradizionali misure di accuratezza.

Fatti principali

CaC è un modello di ricompensa per anomalie dal grossolano al fine basato su modelli Visione-Linguaggio
L'inferenza include scansione temporale globale, grounding spaziale a grana fine e ragionamento spazio-temporale a catena di pensiero
Primo dataset di anomalie video generato su larga scala con annotazioni per fotogramma di bounding box, finestre temporali di anomalia e etichette di attribuzione a grana fine
Addestramento progressivo in tre fasi: fine-tuning supervisionato (singolo e multi-fotogramma) poi apprendimento per rinforzo tramite GRPO a due turni
Pubblicato su arXiv con ID 2605.11723
Il tipo di annuncio è cross

CaC: Modello di Ricompensa Gerarchico Spazio-Temporale per il Rilevamento di Anomalie Video

Fatti principali

Entità

Istituzioni

Fonti