Nuovo attacco svela vulnerabilità multi-turn stateless nei LLM

ai-technology · 2026-04-25

Un nuovo metodo di attacco multi-turn chiamato Transient Turn Injection (TTI) è stato sviluppato dai ricercatori, che sfrutta la moderazione stateless nei grandi modelli linguistici distribuendo l'intento avversario su interazioni separate. A differenza delle tradizionali tecniche di jailbreak che dipendono da un contesto conversazionale continuo, TTI impiega agenti attaccanti automatizzati guidati da LLM per testare e bypassare sistematicamente l'applicazione delle policy. Una valutazione dei modelli leader di OpenAI, Anthropic, Google Gemini, Meta e notevoli alternative open-source ha mostrato marcate differenze nella loro resilienza, con solo poche architetture che dimostrano una significativa robustezza intrinseca. Il documento di ricerca è disponibile su arXiv con il numero di riferimento 2604.21860.

Fatti principali

TTI è una nuova tecnica di attacco multi-turn per LLM.
Sfrutta la moderazione stateless distribuendo l'intento avversario su interazioni isolate.
Agenti attaccanti automatizzati basati su LLM vengono utilizzati per testare e aggirare iterativamente l'applicazione delle policy.
La valutazione ha coperto modelli di OpenAI, Anthropic, Google Gemini, Meta e alternative open-source.
Solo architetture selezionate hanno mostrato una sostanziale robustezza intrinseca contro TTI.
Il paper è pubblicato su arXiv con ID 2604.21860.

Nuovo attacco svela vulnerabilità multi-turn stateless nei LLM

Fatti principali

Entità

Istituzioni

Fonti