PIIBench: Nuovo Corpus di Benchmark per il Rilevamento delle Informazioni di Identificazione Personale nel Testo

publication · 2026-04-20

È stato lanciato un nuovo corpus di benchmark denominato PIIBench per facilitare l'identificazione delle Informazioni di Identificazione Personale (PII) nei testi in linguaggio naturale. Questa risorsa completa unisce dieci dataset pubblicamente accessibili, risultando in un totale di 2.369.883 sequenze annotate e 3,35 milioni di menzioni di entità categorizzate in 48 tipi standard di PII. In precedenza, le risorse per il rilevamento delle PII erano disperse tra vari corpus specifici per dominio con metodi di annotazione diversi, ostacolando confronti sistematici tra sistemi di rilevamento. I dataset includono corpus sintetici di PII, benchmark multilingue per il Riconoscimento di Entità Nominate (NER) e testi annotati dal settore finanziario. È stata creata una pipeline di normalizzazione per allineare oltre 80 varianti di etichette specifiche per fonte a un formato unificato di tagging BIO, implementando la soppressione basata sulla frequenza per i tipi di entità poco frequenti e generando suddivisioni stratificate 80/10/10 per addestramento/validazione/test mantenendo la distribuzione della fonte. Sono stati valutati otto sistemi di rilevamento per stabilire una difficoltà di base, affrontando il problema delle risorse frammentate nella ricerca sul rilevamento delle PII.

Fatti principali

PIIBench è un corpus di benchmark unificato per il rilevamento delle Informazioni di Identificazione Personale
Il corpus contiene 2.369.883 sequenze annotate
Ci sono 3,35 milioni di menzioni di entità attraverso 48 tipi canonici di entità PII
Sono stati consolidati dieci dataset pubblicamente disponibili
I dataset includono corpus sintetici di PII, benchmark NER multilingue e testi del dominio finanziario
Una pipeline di normalizzazione mappa oltre 80 varianti di etichette specifiche per fonte a un tagging BIO standardizzato
Le suddivisioni stratificate 80/10/10 per addestramento/validazione/test preservano la distribuzione della fonte
Sono stati valutati otto sistemi di rilevamento per stabilire una difficoltà di base

Entità

—

Fonti

arXiv cs.AI — 2026-04-20