CoFrGeNet: Architetture a Frazione Continua per la Generazione del Linguaggio
Un nuovo articolo introduce CoFrGeNet (Continued Fraction Generative Networks), una nuova architettura per la generazione del linguaggio ispirata alle frazioni continue. L'architettura sostituisce l'attenzione multi-testa e le reti feed-forward nei blocchi Transformer con un numero inferiore di parametri. Formulazioni gradienti personalizzate ottimizzano i componenti in modo più accurato rispetto ai gradienti standard di PyTorch. L'approccio è un sostituto plug-in che richiede modifiche minime alle procedure di training o inferenza dei Transformer esistenti, rendendolo adatto a grandi flussi di lavoro industriali. Gli esperimenti sono stati condotti su due architetture Transformer molto diverse.
Fatti principali
- 1. CoFrGeNet sta per Continued Fraction Generative Networks.
- 2. L'architettura è ispirata alle frazioni continue.
- 3. Sostituisce l'attenzione multi-testa e le reti feed-forward nei blocchi Transformer.
- 4. I nuovi componenti richiedono molti meno parametri.
- 5. Sono state derivate formulazioni gradienti personalizzate per l'ottimizzazione.
- 6. L'approccio è un sostituto plug-in per i modelli basati su Transformer.
- 7. Gli esperimenti sono stati condotti su due architetture Transformer molto diverse.
- 8. L'articolo è disponibile su arXiv con ID 2601.21766.
Entità
Istituzioni
- arXiv