MAVEN: Pipeline AI Genera Dati di Addestramento per il Ragionamento Video

ai-technology · 2026-05-23

MAVEN (Multi-stage Agentic Video Event aNnotation) è una pipeline sofisticata che trasforma video non elaborati in dataset di addestramento multi-task per modelli linguistico-visivi (VLM). Produce percorsi di ragionamento Chain-of-Thought (CoT) incentrati su uno specifico Evento di Interesse. Alla base, MAVEN crea una Descrizione dell'Evento Spazio-Temporale Multi-Scala (MSTED) derivata da tre livelli di didascalie interconnessi, che costituisce l'input esclusivo per generare domande e risposte in vari formati di task. La pipeline consente l'adattamento al dominio guidato da agenti; quando viene presentato un nuovo dataset video e campioni di domande target, l'agente riconfigura tutti i prompt dall'alto verso il basso senza necessità di regolazioni manuali. Inoltre, un ciclo di raffinamento gerarchico categorizza gli output, soddisfacendo la domanda di annotazioni strutturate di alta qualità che descrivono cosa è accaduto, quando, dove, perché e le conseguenze risultanti, a una scala che va oltre le capacità di etichettatura manuale.

Fatti principali

MAVEN è una pipeline agentica multi-stadio per l'annotazione di eventi video.
Genera tracce di ragionamento Chain-of-Thought per VLM.
La pipeline sintetizza una Descrizione dell'Evento Spazio-Temporale Multi-Scala (MSTED).
MSTED utilizza tre livelli di didascalie complementari.
MAVEN supporta l'adattamento al dominio guidato da agenti senza riprogettazione manuale.
Include un ciclo di raffinamento gerarchico per la classificazione.
Il sistema affronta la necessità di annotazioni strutturate scalabili.
L'articolo è disponibile su arXiv con ID 2605.21917.

MAVEN: Pipeline AI Genera Dati di Addestramento per il Ragionamento Video

Fatti principali

Entità

Istituzioni

Fonti