SELFCI: Un Framework di Auto-Distillazione per la Privacy nei LLM
Un nuovo framework chiamato SELFCI (Self-Distillation for Contextual Integrity) mira a migliorare la privacy nei modelli linguistici di grandi dimensioni disaccoppiando la soppressione delle informazioni dalla risoluzione dei compiti. Proposto in un articolo su arXiv (2605.20258), SELFCI utilizza l'auto-distillazione complementare per ottimizzare due divergenze KL inverse indipendenti: una preserva le informazioni rilevanti per il compito ai fini dell'utilità, l'altra impone una divulgazione minima. Questo crea un target Product-of-Experts che bilancia privacy e prestazioni senza degradare l'accuratezza del compito. L'approccio affronta l'Integrità Contestuale (CI), che regola i flussi informativi secondo norme contestuali, un problema critico poiché i LLM vengono implementati come agenti personali che gestiscono flussi di lavoro sensibili.
Fatti principali
- SELFCI sta per Self-Distillation for Contextual Integrity
- Disaccoppia la soppressione delle informazioni dalla risoluzione dei compiti
- Utilizza due divergenze KL inverse indipendenti
- Una divergenza preserva le informazioni rilevanti per il compito
- L'altra impone una divulgazione minima e appropriata
- Crea un target Product-of-Experts (PoE)
- Mira a superare il compromesso privacy-utilità
- Articolo pubblicato su arXiv con ID 2605.20258
Entità
Istituzioni
- arXiv