Head Forcing estende la generazione video autoregressiva a durate di minuti

ai-technology · 2026-05-16

Un nuovo framework, chiamato Head Forcing, consente ai modelli di diffusione video autoregressivi di produrre video della durata di un minuto senza accumulo di errori o perdita di contesto. Questo metodo, descritto in un preprint su arXiv (2605.14487), affronta l'approccio uniforme alle teste di attenzione negli attuali trasformatori di diffusione video AR. I ricercatori hanno scoperto che le teste di attenzione svolgono ruoli diversi: le teste locali migliorano i dettagli, le teste ancora mantengono l'integrità strutturale e le teste memoria aggregano il contesto a lungo raggio. Head Forcing implementa una strategia specifica di cache KV per ogni tipo di testa: le teste locali e ancora conservano solo i token cruciali, mentre le teste memoria utilizzano un sistema di memoria gerarchico con aggiornamenti episodici dinamici. Inoltre, un approccio di ri-codifica RoPE per testa garantisce che le codifiche posizionali rimangano nell'intervallo pre-addestrato, estendendo la generazione video da 5 secondi a un minuto intero senza addestramento aggiuntivo, migliorando così notevolmente la sintesi video a lungo orizzonte.

Fatti principali

Head Forcing è un framework senza addestramento per modelli di diffusione video autoregressivi.
Affronta l'accumulo di errori e la perdita di contesto nella generazione video a lungo orizzonte.
Le teste di attenzione sono categorizzate come teste locali, ancora e memoria con ruoli distinti.
Le teste locali e ancora conservano solo i token essenziali nella cache KV.
Le teste memoria utilizzano un sistema di memoria gerarchico con aggiornamenti episodici dinamici.
Uno schema di ri-codifica RoPE per testa mantiene le codifiche posizionali nell'intervallo pre-addestrato.
La durata di generazione si estende da 5 secondi al livello di minuto senza addestramento aggiuntivo.
Il metodo è descritto nel preprint arXiv 2605.14487.

Head Forcing estende la generazione video autoregressiva a durate di minuti

Fatti principali

Entità

Istituzioni

Fonti