VISD: Autodistillazione Strutturata per il Ragionamento Video
È stato introdotto un approccio innovativo chiamato VISD (Video Structured self-Distillation) per migliorare le capacità di ragionamento complesso nei Modelli Linguistici Video di Grandi Dimensioni (VideoLLM). Questa tecnica affronta le difficoltà associate all'addestramento di questi modelli per compiti che richiedono ancoraggio temporale e coerenza logica. Mentre l'apprendimento per rinforzo tradizionale con ricompense verificabili (RLVR) offre una supervisione affidabile, non fornisce un credito a livello di token, portando a un apprendimento subottimale. Le attuali tecniche di autodistillazione forniscono una supervisione densa, ma spesso mancano di struttura e chiarezza diagnostica, portando a interazioni instabili con l'apprendimento per rinforzo. VISD presenta un modello giudice video-consapevole che scompone la qualità del ragionamento in varie dimensioni, come accuratezza della risposta, coerenza logica e ancoraggio spazio-temporale, facilitando una politica insegnante per l'assegnazione del credito a livello di token. Questo metodo mira a migliorare l'efficienza e l'efficacia dell'addestramento dei VideoLLM per sfide di ragionamento complesse. L'articolo è disponibile su arXiv con l'identificatore 2605.06094.
Fatti principali
- VISD sta per Video Structured self-Distillation.
- È progettato per l'addestramento di VideoLLM nel ragionamento complesso.
- RLVR fornisce una supervisione affidabile ma manca di assegnazione del credito a livello di token.
- I metodi di autodistillazione esistenti mancano di struttura e specificità diagnostica.
- VISD utilizza un modello giudice video-consapevole per scomporre la qualità del ragionamento.
- Le dimensioni includono correttezza della risposta, coerenza logica e ancoraggio spazio-temporale.
- Il framework guida una politica insegnante per l'assegnazione del credito a livello di token.
- L'articolo è su arXiv con ID 2605.06094.
Entità
Istituzioni
- arXiv