L'attivazione SST migliora le prestazioni delle GRU in contesti con pochi dati

other · 2026-04-30

I ricercatori introducono la squared sigmoid-tanh (SST), una funzione di attivazione senza parametri progettata per migliorare la separazione dei gate nelle unità ricorrenti gated (GRU). SST eleva al quadrato la non linearità del gate, aumentando il contrasto tra attivazioni vicine a zero e alte per un filtraggio delle informazioni più netto. Valutata su compiti con pochi dati, tra cui riconoscimento della lingua dei segni, riconoscimento dell'attività umana e previsione/classificazione di serie temporali, SST-GRU supera costantemente la GRU standard con sigmoide/tanh, con i maggiori guadagni nei domini con meno dati. Il metodo aggiunge un costo computazionale trascurabile.

Fatti principali

SST è una funzione di attivazione senza parametri per GRU.
SST eleva al quadrato la non linearità del gate per aumentare il contrasto.
SST-GRU è stata valutata su riconoscimento della lingua dei segni, riconoscimento dell'attività umana, previsione e classificazione di serie temporali.
SST-GRU supera costantemente la GRU standard con sigmoide/tanh.
I maggiori miglioramenti si osservano nei domini con meno dati.
SST aggiunge un costo computazionale trascurabile.
La sigmoide e la tanh standard possono produrre una debole separazione dei gate e un apprendimento instabile con dati limitati.
L'articolo è arXiv:2402.09034.

Entità

—

Fonti

arXiv cs.AI — 2026-04-29