ARTFEED — Contemporary Art Intelligence

L'analisi dell'attivazione LLM rileva attacchi di iniezione di prompt multi-turno

ai-technology · 2026-05-01

È stata sviluppata una nuova tecnica di rilevamento per identificare attacchi di iniezione di prompt multi-turno su modelli linguistici di grandi dimensioni, esaminando i pattern di attivazione all'interno del flusso residuo. I ricercatori hanno scoperto che i percorsi di attacco—costruzione della fiducia, pivot e escalation—generano una quantificabile 'irrequietezza avversaria', con lunghezze del percorso significativamente maggiori rispetto a quelle delle conversazioni normali. Utilizzando cinque caratteristiche di traiettoria scalari, il rilevamento a livello di conversazione è migliorato dal 76,2% al 93,8% su dati sintetici tenuti da parte. Questo segnale è stato coerente in quattro famiglie di modelli (24B-70B), sebbene le sonde fossero specifiche per ciascun modello e non trasferibili tra architetture. La generalizzazione è stata influenzata dalla distribuzione di origine: valutazioni leave-one-source-out hanno indicato che i set sintetici, LMSYS-Chat-1M e SafeDialBench rappresentavano ciascuno distribuzioni di attacco uniche, con il rilevamento LMSYS che raggiungeva il 47-71% in scenari reali quando la sua distribuzione era inclusa nell'addestramento. I risultati sono documentati nell'articolo arXiv 2604.28129.

Fatti principali

  • L'iniezione di prompt multi-turno segue un percorso di attacco noto: costruzione della fiducia, pivot, escalation.
  • Le difese a livello di testo non rilevano attacchi nascosti in cui i singoli turni appaiono benigni.
  • Il percorso di attacco lascia una firma a livello di attivazione nel flusso residuo del modello.
  • Ogni cambio di fase sposta l'attivazione, producendo una lunghezza totale del percorso di gran lunga superiore alle conversazioni benigne.
  • Questo fenomeno è chiamato 'irrequietezza avversaria'.
  • Cinque caratteristiche di traiettoria scalari hanno migliorato il rilevamento dal 76,2% al 93,8% su dati sintetici tenuti da parte.
  • Il segnale si replica in quattro famiglie di modelli (24B-70B).
  • Le sonde sono specifiche del modello e non si trasferiscono tra architetture.
  • La generalizzazione dipende dalla fonte: la valutazione leave-one-source-out mostra che i set sintetici, LMSYS-Chat-1M e SafeDialBench catturano distribuzioni di attacco distinte.
  • Il rilevamento su LMSYS reale raggiunge il 47-71% quando la sua distribuzione è rappresentata nell'addestramento.
  • L'articolo è pubblicato su arXiv con ID 2604.28129.

Entità

Istituzioni

  • arXiv

Fonti