Informazione Submodulare Complementare per la Selezione dei Dati
È stata introdotta una nuova classe di funzioni submodulari, l'Informazione Submodulare Complementare (CSI), per migliorare la selezione dei dati preservando esplicitamente le informazioni strutturali tra un sottoinsieme selezionato e il suo complemento. Gli obiettivi submodulari classici ottimizzano solo il sottoinsieme selezionato, ignorando i dati rimanenti. La CSI supera questa limitazione quantificando le informazioni strutturali condivise tra entrambi i sottoinsiemi. Questo approccio è particolarmente rilevante per applicazioni moderne di machine learning come la suddivisione train/validation/test, la costruzione di benchmark e la selezione robusta di sottoinsiemi, dove una struttura bilanciata è critica. Il framework induce varianti complement-aware di diverse funzioni submodulari classiche, migliorando copertura, diversità e rappresentatività mantenendo l'equilibrio. Il lavoro è dettagliato nel preprint arXiv 2605.24779.
Fatti principali
- L'Informazione Submodulare Complementare (CSI) è una nuova classe di obiettivi submodulari complement-aware.
- La CSI quantifica le informazioni strutturali condivise tra un sottoinsieme e il suo complemento.
- Gli obiettivi submodulari classici ottimizzano solo il sottoinsieme selezionato.
- La CSI affronta le limitazioni nella suddivisione train/validation/test, nella costruzione di benchmark e nella selezione robusta di sottoinsiemi.
- Il framework induce varianti complement-aware di diverse funzioni submodulari classiche.
- Il lavoro è pubblicato su arXiv con ID 2605.24779.
- La CSI mira a preservare una struttura bilanciata sia nei dati selezionati che in quelli rimanenti.
- L'approccio è rilevante per applicazioni moderne di machine learning.
Entità
Istituzioni
- arXiv