CounterFlow: Generazione di Foley Video Controfattuale tramite Campionamento in Due Fasi

ai-technology · 2026-05-20

Un team di ricercatori ha introdotto CounterFlow, una tecnica innovativa che opera in due fasi per modelli pre-addestrati di flusso Video&Testo-Audio (VT2A), mirata alla creazione di effetti sonori video controfattuali. Questo metodo consente di integrare suoni che non corrispondono alle immagini, mantenendo comunque la sincronia con un video silenzioso. Nella prima fase, stabiliscono una struttura temporale basata sul video riducendo al minimo gli indizi visivi. La seconda fase si concentra esclusivamente sulla qualità audio senza collegamento al video. CounterFlow migliora la generazione di effetti sonori rispetto ai metodi di base e agli standard esistenti. Hanno anche sviluppato un nuovo modo per misurare la qualità del suono analizzando quanto l'audio corrisponde al prompt previsto e al suo contenuto residuo.

Fatti principali

CounterFlow è uno schema di campionamento in fase di inferenza in due fasi per la generazione di foley video controfattuale.
Funziona con modelli pre-addestrati di flusso Video&Testo-Audio (VT2A).
La Fase 1 costruisce una struttura temporale derivata dal video sopprimendo la fonte visivamente implicita.
La Fase 2 abbandona il condizionamento video per concentrarsi sulla modellazione del timbro audio verso il prompt target.
CounterFlow supera il naive negative prompting e i baselines all'avanguardia.
Una nuova metrica che utilizza lo spazio di co-embedding testo-audio valuta la qualità della sostituzione.
La metrica misura sia l'evidenza del prompt target che il contenuto della fonte residua.
L'approccio affronta la tendenza dei modelli VT2A a rimanere ancorati alle fonti sonore visivamente implicite.

Entità

—

Fonti

arXiv cs.AI — 2026-05-20