Ricercatori Sviluppano Metodo di Attacco Sottile che Degrada i Sistemi di Recupero IA

ai-technology · 2026-04-22

Un nuovo articolo di ricerca introduce un sofisticato metodo di attacco mirato ai sistemi di Generazione Aumentata dal Recupero (RAG), che combinano grandi modelli linguistici con il recupero di conoscenze esterne. A differenza degli attacchi di disturbo convenzionali che producono rifiuti evidenti o esiti di denial-of-service, questo approccio induce ciò che i ricercatori definiscono 'fallimento morbido' - risposte fluide ma non informative che degradano l'utilità del sistema senza essere rilevate. Il framework Deceptive Evolutionary Jamming Attack (DEJA) opera come attacco automatico di tipo black-box, generando documenti avversari che sfruttano i comportamenti allineati alla sicurezza nei modelli linguistici. DEJA impiega un'ottimizzazione evolutiva guidata da un Punteggio di Utilità della Risposta (AUS), calcolato tramite un valutatore basato su LLM, per ridurre sistematicamente la certezza delle risposte mantenendo alti tassi di successo nel recupero. Test estensivi su molteplici configurazioni RAG e dataset di benchmark dimostrano l'efficacia costante di DEJA. Questa ricerca formalizza una minaccia di disponibilità precedentemente non riconosciuta per i sistemi di IA che si affidano all'aumento del recupero per l'accuratezza fattuale. Il lavoro è stato pubblicato su arXiv con identificatore 2604.18663v1 e annunciato come studio interdisciplinare. La metodologia di attacco rappresenta un avanzamento significativo nella comprensione delle vulnerabilità dei sistemi di IA che integrano fonti di conoscenza esterne.

Fatti principali

La ricerca introduce attacchi di 'fallimento morbido' sui sistemi di Generazione Aumentata dal Recupero
Il framework DEJA genera documenti avversari per innescare risposte fluide ma non informative
L'attacco sfrutta i comportamenti allineati alla sicurezza dei grandi modelli linguistici
Utilizza un'ottimizzazione evolutiva guidata dal Punteggio di Utilità della Risposta (AUS)
L'AUS viene calcolato tramite un valutatore basato su LLM per degradare la certezza delle risposte
Mantiene un alto successo nel recupero riducendo al contempo l'utilità del sistema
Testato su molteplici configurazioni RAG e dataset di benchmark
Pubblicato su arXiv con identificatore 2604.18663v1 come ricerca interdisciplinare

Ricercatori Sviluppano Metodo di Attacco Sottile che Degrada i Sistemi di Recupero IA

Fatti principali

Entità

Istituzioni

Fonti