Shodh-MoE: Architettura a Miscela Sparsa di Esperti per Modelli Fondamentali Multi-Fisici
Una nuova architettura chiamata Shodh-MoE è stata sviluppata dai ricercatori per affrontare il problema del trasferimento negativo nei modelli fondamentali multi-fisici. Questo trasferimento negativo si verifica quando si addestrano insieme diversi regimi di equazioni differenziali alle derivate parziali (PDE), come la dinamica dei fluidi a canale aperto a banda larga e i flussi in mezzi porosi dominati dai confini, portando a conflitti di gradiente, ottimizzazione instabile e perdita di plasticità negli operatori neurali densi. Shodh-MoE utilizza latenti fisici compressi 16^3 generati da un autoencoder informato dalla fisica, incorporando una parametrizzazione della velocità in stile Helmholtz intra-tokenizer per garantire che gli stati decodificati rimangano all'interno di varietà di velocità a divergenza nulla. Il modello raggiunge una conservazione precisa della massa, producendo una divergenza di velocità di circa 2,8 x 10^-10, affrontando così una sfida significativa nel progresso dell'apprendimento automatico scientifico (SciML) verso modelli fondamentali universali.
Fatti principali
- Shodh-MoE è un'architettura trasformatore latente ad attivazione sparsa per il trasporto multi-fisico.
- Affronta il trasferimento negativo nel co-addestramento di regimi PDE disparati.
- Opera su latenti fisici compressi 16^3 da un autoencoder informato dalla fisica.
- Utilizza la parametrizzazione della velocità in stile Helmholtz per imporre varietà di velocità a divergenza nulla.
- Raggiunge una conservazione esatta della massa con divergenza di velocità ~2,8 x 10^-10.
- Il trasferimento negativo causa conflitto di gradiente, ottimizzazione instabile e perdita di plasticità.
- La dinamica dei fluidi a canale aperto a banda larga e i flussi in mezzi porosi impongono richieste incompatibili.
- Pubblicato su arXiv con ID 2605.15179.
Entità
Istituzioni
- arXiv