PIIBench: Nuovo Corpus di Benchmark per il Rilevamento delle Informazioni di Identificazione Personale nel Testo
È stato lanciato un nuovo corpus di benchmark denominato PIIBench per facilitare l'identificazione delle Informazioni di Identificazione Personale (PII) nei testi in linguaggio naturale. Questa risorsa completa unisce dieci dataset pubblicamente accessibili, risultando in un totale di 2.369.883 sequenze annotate e 3,35 milioni di menzioni di entità categorizzate in 48 tipi standard di PII. In precedenza, le risorse per il rilevamento delle PII erano disperse tra vari corpus specifici per dominio con metodi di annotazione diversi, ostacolando confronti sistematici tra sistemi di rilevamento. I dataset includono corpus sintetici di PII, benchmark multilingue per il Riconoscimento di Entità Nominate (NER) e testi annotati dal settore finanziario. È stata creata una pipeline di normalizzazione per allineare oltre 80 varianti di etichette specifiche per fonte a un formato unificato di tagging BIO, implementando la soppressione basata sulla frequenza per i tipi di entità poco frequenti e generando suddivisioni stratificate 80/10/10 per addestramento/validazione/test mantenendo la distribuzione della fonte. Sono stati valutati otto sistemi di rilevamento per stabilire una difficoltà di base, affrontando il problema delle risorse frammentate nella ricerca sul rilevamento delle PII.
Fatti principali
- PIIBench è un corpus di benchmark unificato per il rilevamento delle Informazioni di Identificazione Personale
- Il corpus contiene 2.369.883 sequenze annotate
- Ci sono 3,35 milioni di menzioni di entità attraverso 48 tipi canonici di entità PII
- Sono stati consolidati dieci dataset pubblicamente disponibili
- I dataset includono corpus sintetici di PII, benchmark NER multilingue e testi del dominio finanziario
- Una pipeline di normalizzazione mappa oltre 80 varianti di etichette specifiche per fonte a un tagging BIO standardizzato
- Le suddivisioni stratificate 80/10/10 per addestramento/validazione/test preservano la distribuzione della fonte
- Sono stati valutati otto sistemi di rilevamento per stabilire una difficoltà di base
Entità
—