SCARV: Classificazione Stabile dei Campioni per Dataset NLP Ridondanti
È stato introdotto un nuovo framework chiamato SCARV (Structure-Constrained Aggregation for Stable Sample Ranking in Redundant NLP Datasets) per affrontare il problema delle classificazioni a livello di campione inconsistenti in dataset NLP con duplicati e quasi-duplicati. Le metodologie attuali valutano gli esempi di training individualmente, trattandoli come entità separate, il che risulta inadeguato in presenza di ridondanza. SCARV integra un'aggregazione multi-seed resiliente con un'aggregazione sensibile alla struttura attraverso cluster di ridondanza. È stato testato su ridondanza sintetica, ridondanza naturale QQP, varie famiglie di proxy, molteplici task NLP e il fine-tuning completo di DistilBERT. L'articolo di ricerca è disponibile su arXiv con ID 2605.00944.
Fatti principali
- 1. SCARV sta per Structure-Constrained Aggregation for Stable Sample Ranking in Redundant NLP Datasets
- 2. Affronta le classificazioni instabili a livello di campione dovute a duplicati, quasi-duplicati e parafrasi
- 3. Combina aggregazione multi-seed con aggregazione sensibile alla struttura su cluster di ridondanza
- 4. Testato su ridondanza sintetica e QQP, molteplici famiglie di proxy, diversi task NLP e fine-tuning di DistilBERT
- 5. Articolo disponibile su arXiv con ID 2605.00944
- 6. I pipeline esistenti valutano gli esempi puntualmente e assumono indipendenza
- 7. L'addestramento stocastico causa ordinamenti relativi instabili tra seed casuali
- 8. SCARV è un framework di aggregazione modulare che opera al di sopra di un proxy di scoring esistente
Entità
Istituzioni
- arXiv