LipB-ViT: Trasformatore Visivo Bayesiano per il Rumore delle Etichette

ai-technology · 2026-05-09

Una nuova testa bayesiana con vincolo di Lipschitz, indipendente dall'architettura, affronta il rumore delle etichette nell'apprendimento supervisionato profondo, in particolare gli errori di classificazione semanticamente prossimi. Integrata con i trasformatori visivi, forma il Trasformatore Visivo Bayesiano con vincolo bi-Lipschitz (LipB-ViT). A differenza dei livelli bayesiani convenzionali, impone la normalizzazione spettrale sia sulla media che sulla log-varianza dei pesi variazionali, promuovendo un'incertezza predittiva calibrata e riducendo l'amplificazione del rumore. Una nuova metrica cattura congiuntamente incertezza e confidenza attraverso i tassi di classificazione errata, e uno schema di fusione adattivo a media aritmetica combina la prossimità nello spazio delle caratteristiche con la testa bayesiana. L'approccio è validato su backbone di trasformatori visivi, mostrando una migliore robustezza al rumore strutturato delle etichette.

Fatti principali

Il rumore delle etichette è un collo di bottiglia critico per la generalizzazione nell'apprendimento supervisionato profondo.
Gli errori sono spesso strutturati piuttosto che casuali.
I metodi standard di addestramento robusto falliscono sugli errori di classificazione semanticamente prossimi.
L'approccio è indipendente dall'architettura e si integra con estrattori di caratteristiche come i trasformatori visivi.
LipB-ViT impone la normalizzazione spettrale sulla media e sulla log-varianza dei pesi variazionali.
Una nuova metrica cattura congiuntamente incertezza e confidenza attraverso i tassi di classificazione errata.
Uno schema di fusione adattivo a media aritmetica combina la prossimità nello spazio delle caratteristiche con la testa bayesiana.
Il lavoro è pubblicato su arXiv con ID 2605.05908.

LipB-ViT: Trasformatore Visivo Bayesiano per il Rumore delle Etichette

Fatti principali

Entità

Istituzioni

Fonti