Valutazione delle Difese contro l'Iniezione di Prompt per Tutor LLM Educativi

ai-technology · 2026-05-11

Una recente pubblicazione su arXiv (2605.06669v1) introduce una metodologia per valutare le difese contro l'iniezione di prompt nei tutor LLM educativi, concentrandosi sull'equilibrio tra forza avversaria, usabilità per compiti benigni e tempo di risposta. Gli autori suggeriscono un framework di difesa specializzato a più livelli che include filtri deterministici di pattern, validazione strutturale, sandboxing contestuale e controlli comportamentali a livello di sessione. Valutato su un benchmark di 480 query (369 di iniezione e 111 benigne), questo framework ha registrato un tasso di bypass del 46,34%, un tasso di falsi positivi dello 0,00% e una latenza media di 2,50 ms. Questo approccio enfatizza l'usabilità educativa garantendo zero falsi positivi, dimostrando comunque una notevole resistenza agli attacchi, offrendo un benchmark riproducibile per confronti diretti.

Fatti principali

Articolo arXiv 2605.06669v1
Focus su tutor LLM educativi
Pipeline di salvaguardia a più livelli: filtri di pattern, validazione strutturale, sandboxing contestuale, controlli a livello di sessione
Testato su 480 query: 369 di iniezione, 111 benigne
Risultati: 46,34% di bypass, 0,00% di falsi positivi, 2,50 ms di latenza
Priorità a zero falsi positivi per l'usabilità pedagogica
Fornisce un protocollo di benchmark riproducibile

Valutazione delle Difese contro l'Iniezione di Prompt per Tutor LLM Educativi

Fatti principali

Entità

Istituzioni

Fonti