CRPO: L'ottimizzazione delle politiche controfattuali migliora la sensibilità spazio-temporale nei Video LLM

ai-technology · 2026-05-23

Un nuovo framework di apprendimento per rinforzo, Counterfactual Relational Policy Optimization (CRPO), mira a migliorare la sensibilità spazio-temporale nei modelli linguistici di grandi dimensioni per video (Video LLM). Gli attuali Video LLM spesso si basano su scorciatoie come indizi da singolo fotogramma e priorità linguistiche piuttosto che tracciare le dinamiche video, un problema aggravato dalle ricompense basate solo sulla correttezza durante il post-addestramento con RL. CRPO affronta questo problema costruendo video controfattuali attraverso ribaltamenti orizzontali e inversioni temporali, addestrandosi sia sul ramo originale che su quello controfattuale, e introducendo una Counterfactual Relation Reward (CRR) tra di essi. L'approccio è dettagliato in un articolo su arXiv (2605.21988).

Fatti principali

I Video LLM spesso usano scorciatoie come indizi da singolo fotogramma e priorità linguistiche.
Le ricompense basate solo sulla correttezza nel post-addestramento con RL rafforzano le politiche di scorciatoia.
CRPO utilizza video controfattuali tramite ribaltamenti orizzontali e inversioni temporali.
CRPO si addestra sui rami originale e controfattuale.
CRPO introduce una Counterfactual Relation Reward (CRR).
L'articolo è su arXiv con ID 2605.21988.
Il metodo si chiama Counterfactual Relational Policy Optimization.
L'obiettivo è migliorare la sensibilità spazio-temporale.

CRPO: L'ottimizzazione delle politiche controfattuali migliora la sensibilità spazio-temporale nei Video LLM

Fatti principali

Entità

Istituzioni

Fonti