ARTFEED — Contemporary Art Intelligence

CRPO: L'ottimizzazione delle politiche controfattuali migliora la sensibilità spazio-temporale nei Video LLM

ai-technology · 2026-05-23

Un nuovo framework di apprendimento per rinforzo, Counterfactual Relational Policy Optimization (CRPO), mira a migliorare la sensibilità spazio-temporale nei modelli linguistici di grandi dimensioni per video (Video LLM). Gli attuali Video LLM spesso si basano su scorciatoie come indizi da singolo fotogramma e priorità linguistiche piuttosto che tracciare le dinamiche video, un problema aggravato dalle ricompense basate solo sulla correttezza durante il post-addestramento con RL. CRPO affronta questo problema costruendo video controfattuali attraverso ribaltamenti orizzontali e inversioni temporali, addestrandosi sia sul ramo originale che su quello controfattuale, e introducendo una Counterfactual Relation Reward (CRR) tra di essi. L'approccio è dettagliato in un articolo su arXiv (2605.21988).

Fatti principali

  • I Video LLM spesso usano scorciatoie come indizi da singolo fotogramma e priorità linguistiche.
  • Le ricompense basate solo sulla correttezza nel post-addestramento con RL rafforzano le politiche di scorciatoia.
  • CRPO utilizza video controfattuali tramite ribaltamenti orizzontali e inversioni temporali.
  • CRPO si addestra sui rami originale e controfattuale.
  • CRPO introduce una Counterfactual Relation Reward (CRR).
  • L'articolo è su arXiv con ID 2605.21988.
  • Il metodo si chiama Counterfactual Relational Policy Optimization.
  • L'obiettivo è migliorare la sensibilità spazio-temporale.

Entità

Istituzioni

  • arXiv

Fonti