ALDEN Attack: Estrazione di Dati Privati dai Sistemi RAG Potenziata tramite Apprendimento Attivo
I ricercatori propongono ALDEN, un nuovo attacco che migliora l'estrazione di dati privati dai sistemi Retrieval-Augmented Generation (RAG). I RAG potenziano i grandi modelli linguistici con il recupero di conoscenza esterna per aumentare l'affidabilità, ma rimangono vulnerabili ad attacchi di estrazione dati in cui gli avversari incorporano comandi malevoli nelle query degli utenti. Gli attacchi esistenti soffrono di bassi tassi di estrazione e limitata efficacia pratica. ALDEN impiega l'apprendimento attivo per diversificare le query malevole e introduce un algoritmo dinamico basato sul decadimento per stimare la distribuzione degli argomenti del database di conoscenza sottostante, guidando la generazione delle query. Combinando questi metodi, ALDEN raggiunge un'estrazione efficiente ed efficace di dati privati dai RAG. L'articolo è disponibile su arXiv con identificatore 2605.18762.
Fatti principali
- ALDEN è un nuovo attacco per estrarre dati privati dai sistemi RAG.
- I RAG potenziano i LLM con il recupero di conoscenza esterna.
- Gli attacchi di estrazione dati esistenti hanno bassi tassi e limitata efficacia.
- ALDEN usa l'apprendimento attivo per diversificare le query malevole.
- Un algoritmo dinamico basato sul decadimento stima la distribuzione degli argomenti del database di conoscenza.
- L'attacco combina apprendimento attivo e stima della distribuzione.
- L'articolo è su arXiv: 2605.18762.
- L'attacco colpisce le vulnerabilità nei sistemi RAG.
Entità
Istituzioni
- arXiv