Valutazione delle Difese contro l'Iniezione di Prompt per Tutor LLM Educativi
Una recente pubblicazione su arXiv (2605.06669v1) introduce una metodologia per valutare le difese contro l'iniezione di prompt nei tutor LLM educativi, concentrandosi sull'equilibrio tra forza avversaria, usabilità per compiti benigni e tempo di risposta. Gli autori suggeriscono un framework di difesa specializzato a più livelli che include filtri deterministici di pattern, validazione strutturale, sandboxing contestuale e controlli comportamentali a livello di sessione. Valutato su un benchmark di 480 query (369 di iniezione e 111 benigne), questo framework ha registrato un tasso di bypass del 46,34%, un tasso di falsi positivi dello 0,00% e una latenza media di 2,50 ms. Questo approccio enfatizza l'usabilità educativa garantendo zero falsi positivi, dimostrando comunque una notevole resistenza agli attacchi, offrendo un benchmark riproducibile per confronti diretti.
Fatti principali
- Articolo arXiv 2605.06669v1
- Focus su tutor LLM educativi
- Pipeline di salvaguardia a più livelli: filtri di pattern, validazione strutturale, sandboxing contestuale, controlli a livello di sessione
- Testato su 480 query: 369 di iniezione, 111 benigne
- Risultati: 46,34% di bypass, 0,00% di falsi positivi, 2,50 ms di latenza
- Priorità a zero falsi positivi per l'usabilità pedagogica
- Fornisce un protocollo di benchmark riproducibile
Entità
Istituzioni
- arXiv