ARTFEED — Contemporary Art Intelligence

SCARV: Classificazione Stabile dei Campioni per Dataset NLP Ridondanti

other · 2026-05-06

È stato introdotto un nuovo framework chiamato SCARV (Structure-Constrained Aggregation for Stable Sample Ranking in Redundant NLP Datasets) per affrontare il problema delle classificazioni a livello di campione inconsistenti in dataset NLP con duplicati e quasi-duplicati. Le metodologie attuali valutano gli esempi di training individualmente, trattandoli come entità separate, il che risulta inadeguato in presenza di ridondanza. SCARV integra un'aggregazione multi-seed resiliente con un'aggregazione sensibile alla struttura attraverso cluster di ridondanza. È stato testato su ridondanza sintetica, ridondanza naturale QQP, varie famiglie di proxy, molteplici task NLP e il fine-tuning completo di DistilBERT. L'articolo di ricerca è disponibile su arXiv con ID 2605.00944.

Fatti principali

  • 1. SCARV sta per Structure-Constrained Aggregation for Stable Sample Ranking in Redundant NLP Datasets
  • 2. Affronta le classificazioni instabili a livello di campione dovute a duplicati, quasi-duplicati e parafrasi
  • 3. Combina aggregazione multi-seed con aggregazione sensibile alla struttura su cluster di ridondanza
  • 4. Testato su ridondanza sintetica e QQP, molteplici famiglie di proxy, diversi task NLP e fine-tuning di DistilBERT
  • 5. Articolo disponibile su arXiv con ID 2605.00944
  • 6. I pipeline esistenti valutano gli esempi puntualmente e assumono indipendenza
  • 7. L'addestramento stocastico causa ordinamenti relativi instabili tra seed casuali
  • 8. SCARV è un framework di aggregazione modulare che opera al di sopra di un proxy di scoring esistente

Entità

Istituzioni

  • arXiv

Fonti