Selezione dei Dati Riformulata come Processo Decisionale Sequenziale
Un nuovo modello teorico presenta la selezione dei dati come una sfida decisionale sequenziale, con sequenze ottimali ottenute tramite tecniche di programmazione dinamica. I valori dei dati sono visti come rappresentazioni di questa sequenza ottimale, integrando approcci esistenti come Data Shapley come stime lineari miopi. La ricerca esamina il declino dell'ottimalità della selezione dovuto alla curvatura dell'utilità in contesti submodulari, chiarendo le carenze delle approssimazioni attuali. Per collegare teoria e pratica, viene introdotto un efficace surrogato basato su grafi bipartiti, che mantiene caratteristiche submodulari per una selezione greedy scalabile con garanzie dimostrabili. La metodologia viene testata attraverso esperimenti su compiti tradizionali.
Fatti principali
- La selezione dei dati è riformulata come un problema decisionale sequenziale
- La sequenza di selezione ottimale deriva dalla programmazione dinamica
- I valori dei dati sono codifiche della sequenza ottimale
- Data Shapley è reinterpretato come un'approssimazione lineare miope
- L'ottimalità della selezione degrada con la curvatura dell'utilità in contesti submodulari
- Un surrogato basato su grafi bipartiti consente una selezione greedy scalabile
- Il surrogato preserva la struttura submodulare con garanzie dimostrabili
- Esperimenti condotti su compiti classici
Entità
—