Nuovo attacco backdoor sfrutta le ottimizzazioni di compilazione dei LLM
I ricercatori hanno identificato che le tecniche per ottimizzare l'inferenza nei modelli linguistici di grandi dimensioni (LLM), in particolare attraverso la compilazione, possono essere manipolate per introdurre backdoor nascoste. Il framework di attacco proposto presenta due metodi: uno altera le previsioni per input designati esclusivamente durante la compilazione del modello, mentre l'altro utilizza un trigger universale che rimane inattivo durante l'esecuzione non compilata ma prende il controllo di qualsiasi input una volta eseguita l'ottimizzazione di compilazione. Entrambi i metodi eludono le valutazioni di sicurezza convenzionali condotte senza compilazione. I dati empirici indicano un tasso medio di successo dell'attacco del 90% su quattro popolari LLM open-source. Questi risultati rivelano una vulnerabilità significativa nei processi di distribuzione degli LLM, dove le conseguenze numeriche della compilazione possono essere sfruttate senza alterare il compilatore o l'hardware.
Fatti principali
- L'ottimizzazione dell'inferenza è fondamentale per distribuire gli LLM su larga scala.
- La compilazione è la tecnica di ottimizzazione più adottata per gli LLM.
- Gli effetti collaterali numerici della compilazione possono essere sfruttati maliziosamente per impiantare backdoor furtive.
- Il framework di attacco comprende due strategie complementari.
- Una strategia inverte le previsioni per input specifici solo quando compilati.
- L'altra utilizza un trigger universale dormiente in esecuzione non compilata.
- Entrambi gli attacchi bypassano le valutazioni di sicurezza standard eseguite senza compilazione.
- I tassi di successo degli attacchi sono in media del 90% su quattro LLM open-source mainstream.
Entità
—