POLAR-Bench: Benchmarking del compromesso tra privacy e utilità negli agenti LLM
POLAR-Bench (Policy-aware adversarial Benchmark) è stato sviluppato come strumento diagnostico per valutare l'equilibrio tra privacy e utilità negli agenti basati su grandi modelli linguistici (LLM). Crea scenari in cui un modello affidabile, dotato di una politica sulla privacy, interagisce con un modello di terze parti che tenta di estrarre sia informazioni rilevanti per il compito sia attributi sensibili. Coprendo 10 domini e comprendente 7.852 campioni, il benchmark valuta privacy e utilità attraverso l'appartenenza a insiemi deterministica. Manipola le dimensioni della politica sulla privacy e le strategie di attacco lungo due assi indipendenti, generando una superficie diagnostica 5×5 per ciascun modello. I risultati indicano un divario significativo: i modelli leader trattengono oltre il 99% degli attributi protetti, mentre i modelli open-weight più piccoli (intervallo 1–30B) mostrano prestazioni inferiori.
Fatti principali
- POLAR-Bench valuta il compromesso tra privacy e utilità negli agenti LLM.
- Utilizza un modello fidato con una politica sulla privacy e un modello avversario di terze parti.
- Il benchmark copre 10 domini e 7.852 campioni.
- Il punteggio viene calcolato tramite appartenenza a insiemi deterministica.
- La dimensione della politica sulla privacy e la strategia di attacco variano lungo due assi ortogonali.
- Viene prodotta una superficie diagnostica 5×5 per ciascun modello.
- I modelli all'avanguardia trattengono oltre il 99% degli attributi protetti.
- I modelli open-weight più piccoli (1–30B) mostrano prestazioni inferiori.
Entità
Istituzioni
- arXiv