DEFault++: Rilevamento Automatico dei Guasti per Architetture Transformer
I modelli Transformer svolgono un ruolo cruciale nelle applicazioni AI essenziali; tuttavia, problemi nei loro meccanismi di attenzione, proiezioni e altri componenti interni possono portare a un degrado delle prestazioni senza innescare errori a runtime. Gli attuali metodi di diagnosi dei guasti si concentrano principalmente su reti neurali profonde generiche e non riescono a individuare il componente specifico del Transformer collegato a un particolare sintomo. Questo articolo introduce DEFault++, un approccio diagnostico basato sull'apprendimento gerarchico che opera a tre livelli di astrazione: rileva la presenza di guasti, li classifica in uno dei 12 tipi di guasto specifici dei Transformer (inclusi meccanismi interni di attenzione e componenti architetturali correlati) e determina la causa principale da un insieme di fino a 45 meccanismi. Per supportare l'addestramento e la valutazione, abbiamo sviluppato DEFault-bench, un benchmark composto da 3.739 istanze etichettate derivate da test di mutazione sistematici.
Fatti principali
- DEFault++ è una tecnica diagnostica basata sull'apprendimento gerarchico per architetture Transformer.
- Opera a tre livelli: rilevamento, classificazione in 12 categorie di guasto e identificazione della causa principale da fino a 45 meccanismi.
- La tecnica affronta guasti nei meccanismi di attenzione, proiezioni e altri componenti interni.
- Le tecniche esistenti si rivolgono a DNN generiche e non possono identificare i componenti Transformer specifici responsabili dei guasti.
- DEFault-bench è un benchmark di 3.739 istanze etichettate create tramite test di mutazione sistematici.
- L'articolo è pubblicato su arXiv con ID 2604.28118.
- I guasti nei Transformer spesso degradano il comportamento silenziosamente senza errori a runtime.
- Le 12 categorie di guasto coprono i meccanismi interni di attenzione e i componenti architetturali circostanti.
Entità
Istituzioni
- arXiv