L'analisi dell'attivazione LLM rileva attacchi di iniezione di prompt multi-turno
È stata sviluppata una nuova tecnica di rilevamento per identificare attacchi di iniezione di prompt multi-turno su modelli linguistici di grandi dimensioni, esaminando i pattern di attivazione all'interno del flusso residuo. I ricercatori hanno scoperto che i percorsi di attacco—costruzione della fiducia, pivot e escalation—generano una quantificabile 'irrequietezza avversaria', con lunghezze del percorso significativamente maggiori rispetto a quelle delle conversazioni normali. Utilizzando cinque caratteristiche di traiettoria scalari, il rilevamento a livello di conversazione è migliorato dal 76,2% al 93,8% su dati sintetici tenuti da parte. Questo segnale è stato coerente in quattro famiglie di modelli (24B-70B), sebbene le sonde fossero specifiche per ciascun modello e non trasferibili tra architetture. La generalizzazione è stata influenzata dalla distribuzione di origine: valutazioni leave-one-source-out hanno indicato che i set sintetici, LMSYS-Chat-1M e SafeDialBench rappresentavano ciascuno distribuzioni di attacco uniche, con il rilevamento LMSYS che raggiungeva il 47-71% in scenari reali quando la sua distribuzione era inclusa nell'addestramento. I risultati sono documentati nell'articolo arXiv 2604.28129.
Fatti principali
- L'iniezione di prompt multi-turno segue un percorso di attacco noto: costruzione della fiducia, pivot, escalation.
- Le difese a livello di testo non rilevano attacchi nascosti in cui i singoli turni appaiono benigni.
- Il percorso di attacco lascia una firma a livello di attivazione nel flusso residuo del modello.
- Ogni cambio di fase sposta l'attivazione, producendo una lunghezza totale del percorso di gran lunga superiore alle conversazioni benigne.
- Questo fenomeno è chiamato 'irrequietezza avversaria'.
- Cinque caratteristiche di traiettoria scalari hanno migliorato il rilevamento dal 76,2% al 93,8% su dati sintetici tenuti da parte.
- Il segnale si replica in quattro famiglie di modelli (24B-70B).
- Le sonde sono specifiche del modello e non si trasferiscono tra architetture.
- La generalizzazione dipende dalla fonte: la valutazione leave-one-source-out mostra che i set sintetici, LMSYS-Chat-1M e SafeDialBench catturano distribuzioni di attacco distinte.
- Il rilevamento su LMSYS reale raggiunge il 47-71% quando la sua distribuzione è rappresentata nell'addestramento.
- L'articolo è pubblicato su arXiv con ID 2604.28129.
Entità
Istituzioni
- arXiv