Il Routing Adattivo alla Diffusione Migliora il Flusso di Informazioni nei DiT
Uno studio recente pubblicato su arXiv (2605.20708) conduce un esame approfondito del flusso di informazioni tra i layer nei Diffusion Transformers (DiT). Vengono evidenziati tre problemi chiave associati all'addizione residua convenzionale: l'inflazione delle grandezze in avanti, il significativo decadimento dei gradienti all'indietro e una notevole ridondanza a livello di blocco. Per affrontare questi problemi, gli autori introducono il Diffusion-Adaptive Routing (DAR), un sostituto delle connessioni residue che consente un'aggregazione apprendibile e adattiva delle uscite a ogni passo temporale senza aumentare la complessità. Il DAR mira a migliorare il routing delle informazioni attraverso i layer e a potenziare la denoising a vari passi temporali, rivisitando un aspetto cruciale del design dei DiT rimasto sostanzialmente invariato.
Fatti principali
- ID articolo: arXiv:2605.20708v1
- Tipo di annuncio: cross
- Focus: flusso di informazioni tra layer nei Diffusion Transformers (DiT)
- Identifica tre sintomi: inflazione monotona delle grandezze in avanti, netto decadimento dei gradienti all'indietro, marcata ridondanza a livello di blocco
- Propone il Diffusion-Adaptive Routing (DAR) come sostituto residuo plug-in
- Il DAR esegue un'aggregazione apprendibile, adattiva al passo temporale e non incrementale
- Affronta il design del flusso residuo ereditato dal Transformer originale
- Analisi condotta congiuntamente lungo la profondità e il passo temporale di denoising
Entità
Istituzioni
- arXiv