DPrivBench Valuta la Capacità dei Modelli Linguistici di Ragionare sugli Algoritmi di Privacy Differenziale
Un nuovo benchmark chiamato DPrivBench valuta se i grandi modelli linguistici possono automatizzare il ragionamento sulla privacy differenziale, una tecnica per proteggere la privacy dei dati. La privacy differenziale richiede conoscenze di livello esperto per progettare e verificare gli algoritmi, creando barriere per i non specialisti. Gli approcci precedenti hanno dipeso da linguaggi di verifica specializzati che richiedono una notevole competenza di dominio o sono rimasti semi-automatizzati con guida umana. Il benchmark presenta istanze che chiedono se una funzione o un algoritmo soddisfi una garanzia di privacy differenziale dichiarata sotto specifiche ipotesi. Copre un'ampia gamma di argomenti di privacy differenziale e si estende su diversi livelli di difficoltà, resistendo al ragionamento per scorciatoie attraverso semplici corrispondenze di pattern. Gli esperimenti rivelano che mentre i modelli più potenti gestiscono adeguatamente i meccanismi da manuale, tutti i modelli hanno difficoltà con gli algoritmi avanzati. Il lavoro indaga il potenziale dei LLM per abbassare l'alta barriera affrontata dai professionisti privi di competenze in questo campo complesso. La ricerca è stata annunciata su arXiv con l'identificatore 2604.15851v1.
Fatti principali
- DPrivBench è un benchmark per valutare il ragionamento dei LLM sulla privacy differenziale
- La privacy differenziale protegge la privacy dei dati ma richiede un ragionamento di livello esperto
- Progettare e verificare algoritmi di DP crea alte barriere per i professionisti non esperti
- Gli approcci precedenti si basano su linguaggi di verifica specializzati o metodi semi-automatizzati
- Il benchmark chiede se funzioni/algoritmi soddisfino garanzie di DP dichiarate sotto ipotesi
- DPrivBench copre ampi argomenti di DP e diversi livelli di difficoltà
- Il benchmark resiste al ragionamento per scorciatoie attraverso semplici corrispondenze di pattern
- Gli esperimenti mostrano che i modelli più potenti gestiscono i meccanismi da manuale ma hanno difficoltà con gli algoritmi avanzati
Entità
Istituzioni
- arXiv