Continuità Geometrica nelle Reti Neurali Profonde Spiegata

ai-technology · 2026-05-07

Una recente indagine pubblicata su arXiv (2605.04971) svela le ragioni alla base della continuità geometrica osservata nelle matrici dei pesi delle reti profonde, dove i vettori singolari principali di strati vicini si allineano strettamente. I ricercatori hanno condotto esperimenti su semplici MLP e transformer compatti, rivelando due fattori chiave: le connessioni residue promuovono la coerenza del gradiente tra gli strati, allineando gli aggiornamenti dei pesi, e le non linearità che rompono la simmetria limitano tutti gli strati a un sistema di coordinate unificato, evitando così la deriva rotazionale. In particolare, un'attivazione non lineare che preserva la rotazione non mantiene la continuità, evidenziando la rottura della simmetria come elemento cruciale. Mentre l'attivazione concentra la continuità nella direzione singolare principale, la normalizzazione la distribuisce in varie direzioni.

Fatti principali

Le matrici dei pesi nelle reti profonde mostrano continuità geometrica: i vettori singolari principali di strati adiacenti puntano in direzioni simili.
L'origine di questa proprietà era precedentemente inspiegata.
Gli esperimenti sono stati condotti su MLP giocattolo e piccoli transformer.
Le connessioni residue creano coerenza del gradiente tra gli strati, allineando gli aggiornamenti dei pesi.
Le non linearità che rompono la simmetria vincolano tutti gli strati a un sistema di coordinate condiviso.
Un'attivazione non lineare ma che preserva la rotazione non riesce a mantenere la continuità.
L'attivazione concentra la continuità nella direzione singolare principale.
La normalizzazione distribuisce la continuità in più direzioni.

Continuità Geometrica nelle Reti Neurali Profonde Spiegata

Fatti principali

Entità

Istituzioni

Fonti