Il Framework LeakDojo Espone i Rischi di Perdita nei Sistemi RAG
Uno studio recente ha presentato LeakDojo, un framework personalizzabile progettato per valutare sistematicamente le vulnerabilità di perdita nei sistemi Retrieval-Augmented Generation (RAG). RAG consente ai grandi modelli linguistici (LLM) di attingere a database esterni, che sono suscettibili ad attacchi di perdita. I ricercatori hanno valutato sei metodi di attacco esistenti su quattordici LLM, quattro dataset e varie configurazioni RAG. Risultati significativi rivelano che la generazione di query e le istruzioni avversarie influenzano indipendentemente la perdita, con la perdita complessiva stimata come loro prodotto; una maggiore capacità di seguire le istruzioni è collegata a un aumento del rischio di perdita; e i miglioramenti nella fedeltà RAG possono paradossalmente aumentare i rischi di perdita. La ricerca offre indicazioni pratiche per comprendere e ridurre la perdita RAG.
Fatti principali
- LeakDojo è un framework configurabile per la valutazione controllata della perdita RAG.
- Sei attacchi esistenti sono stati confrontati su quattordici LLM.
- Sono stati utilizzati quattro dataset nella valutazione.
- La generazione di query e le istruzioni avversarie contribuiscono indipendentemente alla perdita.
- La perdita complessiva è ben approssimata dal prodotto tra generazione di query e istruzioni avversarie.
- Una maggiore capacità di seguire le istruzioni è correlata a un rischio di perdita più elevato.
- I miglioramenti nella fedeltà RAG possono introdurre un aumento del rischio di perdita.
- Lo studio fornisce spunti pratici per comprendere e mitigare la perdita RAG.
Entità
Istituzioni
- arXiv