SCARV: Classificazione Stabile dei Campioni per Dataset NLP Ridondanti

other · 2026-05-06

È stato introdotto un nuovo framework chiamato SCARV (Structure-Constrained Aggregation for Stable Sample Ranking in Redundant NLP Datasets) per affrontare il problema delle classificazioni a livello di campione inconsistenti in dataset NLP con duplicati e quasi-duplicati. Le metodologie attuali valutano gli esempi di training individualmente, trattandoli come entità separate, il che risulta inadeguato in presenza di ridondanza. SCARV integra un'aggregazione multi-seed resiliente con un'aggregazione sensibile alla struttura attraverso cluster di ridondanza. È stato testato su ridondanza sintetica, ridondanza naturale QQP, varie famiglie di proxy, molteplici task NLP e il fine-tuning completo di DistilBERT. L'articolo di ricerca è disponibile su arXiv con ID 2605.00944.

Fatti principali

1. SCARV sta per Structure-Constrained Aggregation for Stable Sample Ranking in Redundant NLP Datasets
2. Affronta le classificazioni instabili a livello di campione dovute a duplicati, quasi-duplicati e parafrasi
3. Combina aggregazione multi-seed con aggregazione sensibile alla struttura su cluster di ridondanza
4. Testato su ridondanza sintetica e QQP, molteplici famiglie di proxy, diversi task NLP e fine-tuning di DistilBERT
5. Articolo disponibile su arXiv con ID 2605.00944
6. I pipeline esistenti valutano gli esempi puntualmente e assumono indipendenza
7. L'addestramento stocastico causa ordinamenti relativi instabili tra seed casuali
8. SCARV è un framework di aggregazione modulare che opera al di sopra di un proxy di scoring esistente

SCARV: Classificazione Stabile dei Campioni per Dataset NLP Ridondanti

Fatti principali

Entità

Istituzioni

Fonti