LipB-ViT: Trasformatore Visivo Bayesiano per il Rumore delle Etichette
Una nuova testa bayesiana con vincolo di Lipschitz, indipendente dall'architettura, affronta il rumore delle etichette nell'apprendimento supervisionato profondo, in particolare gli errori di classificazione semanticamente prossimi. Integrata con i trasformatori visivi, forma il Trasformatore Visivo Bayesiano con vincolo bi-Lipschitz (LipB-ViT). A differenza dei livelli bayesiani convenzionali, impone la normalizzazione spettrale sia sulla media che sulla log-varianza dei pesi variazionali, promuovendo un'incertezza predittiva calibrata e riducendo l'amplificazione del rumore. Una nuova metrica cattura congiuntamente incertezza e confidenza attraverso i tassi di classificazione errata, e uno schema di fusione adattivo a media aritmetica combina la prossimità nello spazio delle caratteristiche con la testa bayesiana. L'approccio è validato su backbone di trasformatori visivi, mostrando una migliore robustezza al rumore strutturato delle etichette.
Fatti principali
- Il rumore delle etichette è un collo di bottiglia critico per la generalizzazione nell'apprendimento supervisionato profondo.
- Gli errori sono spesso strutturati piuttosto che casuali.
- I metodi standard di addestramento robusto falliscono sugli errori di classificazione semanticamente prossimi.
- L'approccio è indipendente dall'architettura e si integra con estrattori di caratteristiche come i trasformatori visivi.
- LipB-ViT impone la normalizzazione spettrale sulla media e sulla log-varianza dei pesi variazionali.
- Una nuova metrica cattura congiuntamente incertezza e confidenza attraverso i tassi di classificazione errata.
- Uno schema di fusione adattivo a media aritmetica combina la prossimità nello spazio delle caratteristiche con la testa bayesiana.
- Il lavoro è pubblicato su arXiv con ID 2605.05908.
Entità
Istituzioni
- arXiv