CRPO: L'ottimizzazione delle politiche controfattuali migliora la sensibilità spazio-temporale nei Video LLM
Un nuovo framework di apprendimento per rinforzo, Counterfactual Relational Policy Optimization (CRPO), mira a migliorare la sensibilità spazio-temporale nei modelli linguistici di grandi dimensioni per video (Video LLM). Gli attuali Video LLM spesso si basano su scorciatoie come indizi da singolo fotogramma e priorità linguistiche piuttosto che tracciare le dinamiche video, un problema aggravato dalle ricompense basate solo sulla correttezza durante il post-addestramento con RL. CRPO affronta questo problema costruendo video controfattuali attraverso ribaltamenti orizzontali e inversioni temporali, addestrandosi sia sul ramo originale che su quello controfattuale, e introducendo una Counterfactual Relation Reward (CRR) tra di essi. L'approccio è dettagliato in un articolo su arXiv (2605.21988).
Fatti principali
- I Video LLM spesso usano scorciatoie come indizi da singolo fotogramma e priorità linguistiche.
- Le ricompense basate solo sulla correttezza nel post-addestramento con RL rafforzano le politiche di scorciatoia.
- CRPO utilizza video controfattuali tramite ribaltamenti orizzontali e inversioni temporali.
- CRPO si addestra sui rami originale e controfattuale.
- CRPO introduce una Counterfactual Relation Reward (CRR).
- L'articolo è su arXiv con ID 2605.21988.
- Il metodo si chiama Counterfactual Relational Policy Optimization.
- L'obiettivo è migliorare la sensibilità spazio-temporale.
Entità
Istituzioni
- arXiv