Substrato Energetico Bilineare Abilita l'Addestramento di Modelli di Diffusione su Chip
Un nuovo risultato teorico mostra che i modelli di diffusione basati su score possono essere addestrati interamente su un substrato analogico senza acceleratori digitali esterni. Il metodo, chiamato Propagazione di Equilibrio Simmetrica, si applica a paesaggi energetici accoppiati bilinearmente, precedentemente dimostrati per accelerare l'inferenza di tre o quattro ordini di grandezza. Il contributo chiave è la dimostrazione che il gradiente di addestramento può essere stimato senza bias nel limite di nudge zero, con un limite di bias per nudge finito controllato dalla rigidità del substrato, dalla curvatura locale e dalla norma del gradiente della loss. Questo chiude il ciclo di addestramento sullo stesso substrato fisico, consentendo potenzialmente l'apprendimento su dispositivo a bassissimo consumo energetico per l'IA generativa. Il lavoro è pubblicato su arXiv con ID 2604.23806.
Fatti principali
- La Propagazione di Equilibrio applicata all'energia bilineare produce uno stimatore del gradiente senza bias per il denoising score matching.
- Il limite di bias per nudge finito dipende dalla rigidità del substrato, dalla curvatura locale e dalla norma del gradiente della loss.
- Lavori precedenti hanno mostrato che il substrato analogico bilineare raggiunge un vantaggio energetico di 3-4 ordini di grandezza per l'inferenza.
- Il metodo elimina la necessità di un acceleratore digitale esterno durante l'addestramento.
- Pubblicato su arXiv con ID 2604.23806.
- Il processo inverso nei modelli di diffusione basati su score è equivalente alla dinamica di Langevin sovrasmorzata.
- Il substrato analogico accoppiato bilinearmente sostituisce le dense skip connection con accoppiamenti inter-modulo a basso rango.
Entità
Istituzioni
- arXiv