Nuovo attacco svela vulnerabilità multi-turn stateless nei LLM
Un nuovo metodo di attacco multi-turn chiamato Transient Turn Injection (TTI) è stato sviluppato dai ricercatori, che sfrutta la moderazione stateless nei grandi modelli linguistici distribuendo l'intento avversario su interazioni separate. A differenza delle tradizionali tecniche di jailbreak che dipendono da un contesto conversazionale continuo, TTI impiega agenti attaccanti automatizzati guidati da LLM per testare e bypassare sistematicamente l'applicazione delle policy. Una valutazione dei modelli leader di OpenAI, Anthropic, Google Gemini, Meta e notevoli alternative open-source ha mostrato marcate differenze nella loro resilienza, con solo poche architetture che dimostrano una significativa robustezza intrinseca. Il documento di ricerca è disponibile su arXiv con il numero di riferimento 2604.21860.
Fatti principali
- TTI è una nuova tecnica di attacco multi-turn per LLM.
- Sfrutta la moderazione stateless distribuendo l'intento avversario su interazioni isolate.
- Agenti attaccanti automatizzati basati su LLM vengono utilizzati per testare e aggirare iterativamente l'applicazione delle policy.
- La valutazione ha coperto modelli di OpenAI, Anthropic, Google Gemini, Meta e alternative open-source.
- Solo architetture selezionate hanno mostrato una sostanziale robustezza intrinseca contro TTI.
- Il paper è pubblicato su arXiv con ID 2604.21860.
Entità
Istituzioni
- OpenAI
- Anthropic
- Google Gemini
- Meta