EΔ-MHC-Geo Transformer: Operazioni Geodetiche Adattive con Ortogonalità Garantita
I ricercatori hanno presentato un modello rivoluzionario chiamato EΔ-MHC-Geo Transformer, che fonde in modo innovativo le Iperconnessioni Vincolate dalla Varietà (Manifold-Constrained Hyper-Connections), il Deep Delta Learning e la trasformata di Cayley. Questa nuova architettura presenta connessioni residue ortogonali adattabili a diversi input di dati. Mentre il Deep Delta Learning si basa sull'operatore di Householder per mantenere l'ortogonalità a valori specifici, la rotazione di Cayley dipendente dai dati integrata garantisce un'ortogonalità costante su tutti gli input e parametri. Il modello impiega un gate di selezione dell'operatore appreso per affrontare i problemi di negazione. Con circa 1,79 milioni di parametri, i test indicano un notevole miglioramento delle prestazioni rispetto ai sistemi esistenti.
Fatti principali
- 1. L'EΔ-MHC-Geo Transformer unifica mHC, DDL e trasformata di Cayley.
- 2. La rotazione di Cayley dipendente dai dati preserva l'ortogonalità per tutti i β e gli input.
- 3. L'operatore di Householder del DDL è ortogonale solo per β ∈ {0,2}.
- 4. EΔ-MHC-Geo Hybrid gestisce il caso di autovalore -1 tramite un gate appreso.
- 5. Il regolarizzatore midpoint-collapse incoraggia decisioni di gate ai confini.
- 6. I confronti a parametri corrispondenti utilizzano circa 1,79 milioni di parametri per modello.
- 7. L'architettura è presentata su arXiv con ID 2605.06729.
- 8. Il metodo è adattivo all'input e incondizionatamente ortogonale.
Entità
Istituzioni
- arXiv