MaskTab: Un Nuovo Framework di Pre-Addestramento per Dati Tabellari Industriali
MaskTab è un sistema integrato di pre-addestramento auto-supervisionato progettato per dataset tabellari su larga scala, affrontando problemi come alta dimensionalità, dati mancanti e etichette limitate. Utilizza token apprendibili specifici per codificare i valori mancanti, consentendo una chiara distinzione tra assenza strutturale e dropout casuale. Il framework ottimizza un approccio di pre-addestramento supervisionato combinato con un'architettura a doppio percorso che allinea la ricostruzione mascherata con la supervisione orientata al compito, insieme a una perdita potenziata da MoE che indirizza dinamicamente le caratteristiche attraverso sottoreti specializzate. Nei test su benchmark su scala industriale, MaskTab mostra un miglioramento di +5.0 rispetto alle tecniche precedenti. La ricerca è disponibile su arXiv con l'identificatore 2605.11408.
Fatti principali
- MaskTab è un framework di pre-addestramento unificato per dati tabellari industriali.
- Utilizza token apprendibili dedicati per codificare i valori mancanti.
- Il framework impiega un'architettura a doppio percorso per il pre-addestramento supervisionato ibrido.
- MaskTab incorpora una perdita potenziata da MoE per il routing adattivo delle caratteristiche.
- Raggiunge un miglioramento di +5.0 su benchmark su scala industriale.
- L'articolo è pubblicato su arXiv con ID 2605.11408.
- I dati tabellari sono fondamentali in finanza, sanità e altri settori ad alto rischio.
- I dataset tabellari industriali sono spesso ad alta dimensionalità, con voci mancanti e raramente etichettati.
Entità
Istituzioni
- arXiv