Lumos-Nexus: Collegamento Efficiente delle Frequenze per Modelli Video Unificati
I ricercatori propongono Lumos-Nexus, un framework efficiente per l'addestramento di modelli video unificati che integra generazione guidata dal ragionamento con elevata fedeltà visiva. Il sistema utilizza un design a due fasi: durante l'addestramento, un generatore leggero si allinea con il blocco di comprensione per apprendere il controllo semantico; durante l'inferenza, il Unified Progressive Frequency Bridging (UPFB) trasferisce progressivamente la generazione a un generatore pre-addestrato ad alta capacità in uno spazio latente condiviso, consentendo un perfezionamento dal grossolano al fine senza compromettere il ragionamento. Questo approccio affronta il collo di bottiglia computazionale dell'integrazione di grandi generatori ad alta fedeltà nei cicli di addestramento unificati. L'articolo è disponibile su arXiv con identificativo 2605.31603.
Fatti principali
- Lumos-Nexus è un framework efficiente per l'addestramento di generazione video unificata.
- Utilizza un design a due fasi: allineamento del generatore leggero durante l'addestramento, UPFB durante l'inferenza.
- UPFB sta per Unified Progressive Frequency Bridging.
- Il framework consente la generazione video ad alta fedeltà senza compromettere il ragionamento.
- L'articolo è su arXiv con ID 2605.31603.
- L'approccio affronta i limiti computazionali dell'integrazione di grandi generatori nell'addestramento unificato.
- Lo spazio latente condiviso consente il perfezionamento dal grossolano al fine.
- Il generatore leggero apprende il controllo semantico guidato dal ragionamento.
Entità
Istituzioni
- arXiv