Head Forcing estende la generazione video autoregressiva a durate di minuti
Un nuovo framework, chiamato Head Forcing, consente ai modelli di diffusione video autoregressivi di produrre video della durata di un minuto senza accumulo di errori o perdita di contesto. Questo metodo, descritto in un preprint su arXiv (2605.14487), affronta l'approccio uniforme alle teste di attenzione negli attuali trasformatori di diffusione video AR. I ricercatori hanno scoperto che le teste di attenzione svolgono ruoli diversi: le teste locali migliorano i dettagli, le teste ancora mantengono l'integrità strutturale e le teste memoria aggregano il contesto a lungo raggio. Head Forcing implementa una strategia specifica di cache KV per ogni tipo di testa: le teste locali e ancora conservano solo i token cruciali, mentre le teste memoria utilizzano un sistema di memoria gerarchico con aggiornamenti episodici dinamici. Inoltre, un approccio di ri-codifica RoPE per testa garantisce che le codifiche posizionali rimangano nell'intervallo pre-addestrato, estendendo la generazione video da 5 secondi a un minuto intero senza addestramento aggiuntivo, migliorando così notevolmente la sintesi video a lungo orizzonte.
Fatti principali
- Head Forcing è un framework senza addestramento per modelli di diffusione video autoregressivi.
- Affronta l'accumulo di errori e la perdita di contesto nella generazione video a lungo orizzonte.
- Le teste di attenzione sono categorizzate come teste locali, ancora e memoria con ruoli distinti.
- Le teste locali e ancora conservano solo i token essenziali nella cache KV.
- Le teste memoria utilizzano un sistema di memoria gerarchico con aggiornamenti episodici dinamici.
- Uno schema di ri-codifica RoPE per testa mantiene le codifiche posizionali nell'intervallo pre-addestrato.
- La durata di generazione si estende da 5 secondi al livello di minuto senza addestramento aggiuntivo.
- Il metodo è descritto nel preprint arXiv 2605.14487.
Entità
Istituzioni
- arXiv