CDVM: Ottimizzazione del Potatura dei Dati in Ambienti con Povertà di Dati
Un nuovo articolo su arXiv introduce Constraint-Data-Value-Maximization (CDVM), un metodo per la potatura efficace dei dati quando rimane solo una piccola frazione dei dati di addestramento. Gli autori dimostrano che i valori dei dati basati su Shapley sono subottimali per la potatura dei dati a basso valore in scenari con pochi dati. CDVM inquadra la potatura come un'ottimizzazione vincolata che massimizza l'influenza totale penalizzando i contributi eccessivi per test, ottenendo prestazioni robuste sul benchmark OpenDataVal.
Fatti principali
- L'articolo arXiv 2605.11312 introduce CDVM.
- CDVM affronta la potatura dei dati in ambienti con povertà di dati.
- I valori dei dati basati su Shapley sono subottimali per la potatura in contesti con pochi dati.
- CDVM inquadra la potatura come un'ottimizzazione vincolata.
- Massimizza l'influenza totale e penalizza i contributi per test.
- CDVM mostra prestazioni robuste sul benchmark OpenDataVal.
- L'articolo proviene da arXiv, pubblicato nel 2025.
- L'attribuzione dei dati è il campo di ricerca più ampio.
Entità
Istituzioni
- arXiv
- OpenDataVal