ARTFEED — Contemporary Art Intelligence

Nuovo attacco svela vulnerabilità multi-turn stateless nei LLM

ai-technology · 2026-04-25

Un nuovo metodo di attacco multi-turn chiamato Transient Turn Injection (TTI) è stato sviluppato dai ricercatori, che sfrutta la moderazione stateless nei grandi modelli linguistici distribuendo l'intento avversario su interazioni separate. A differenza delle tradizionali tecniche di jailbreak che dipendono da un contesto conversazionale continuo, TTI impiega agenti attaccanti automatizzati guidati da LLM per testare e bypassare sistematicamente l'applicazione delle policy. Una valutazione dei modelli leader di OpenAI, Anthropic, Google Gemini, Meta e notevoli alternative open-source ha mostrato marcate differenze nella loro resilienza, con solo poche architetture che dimostrano una significativa robustezza intrinseca. Il documento di ricerca è disponibile su arXiv con il numero di riferimento 2604.21860.

Fatti principali

  • TTI è una nuova tecnica di attacco multi-turn per LLM.
  • Sfrutta la moderazione stateless distribuendo l'intento avversario su interazioni isolate.
  • Agenti attaccanti automatizzati basati su LLM vengono utilizzati per testare e aggirare iterativamente l'applicazione delle policy.
  • La valutazione ha coperto modelli di OpenAI, Anthropic, Google Gemini, Meta e alternative open-source.
  • Solo architetture selezionate hanno mostrato una sostanziale robustezza intrinseca contro TTI.
  • Il paper è pubblicato su arXiv con ID 2604.21860.

Entità

Istituzioni

  • OpenAI
  • Anthropic
  • Google Gemini
  • Meta

Fonti