Selezione dei Dati Riformulata come Processo Decisionale Sequenziale

other · 2026-06-01

Un nuovo modello teorico presenta la selezione dei dati come una sfida decisionale sequenziale, con sequenze ottimali ottenute tramite tecniche di programmazione dinamica. I valori dei dati sono visti come rappresentazioni di questa sequenza ottimale, integrando approcci esistenti come Data Shapley come stime lineari miopi. La ricerca esamina il declino dell'ottimalità della selezione dovuto alla curvatura dell'utilità in contesti submodulari, chiarendo le carenze delle approssimazioni attuali. Per collegare teoria e pratica, viene introdotto un efficace surrogato basato su grafi bipartiti, che mantiene caratteristiche submodulari per una selezione greedy scalabile con garanzie dimostrabili. La metodologia viene testata attraverso esperimenti su compiti tradizionali.

Fatti principali

La selezione dei dati è riformulata come un problema decisionale sequenziale
La sequenza di selezione ottimale deriva dalla programmazione dinamica
I valori dei dati sono codifiche della sequenza ottimale
Data Shapley è reinterpretato come un'approssimazione lineare miope
L'ottimalità della selezione degrada con la curvatura dell'utilità in contesti submodulari
Un surrogato basato su grafi bipartiti consente una selezione greedy scalabile
Il surrogato preserva la struttura submodulare con garanzie dimostrabili
Esperimenti condotti su compiti classici

Entità

—

Fonti

arXiv cs.AI — 2026-06-01