Rilevamento di vulnerabilità negli LLM sfruttato tramite iniezione di bias contestuale
Uno studio su arXiv (2603.18740) rivela che i modelli linguistici di grandi dimensioni (LLM) utilizzati nella revisione automatica del codice (ACR) sono suscettibili all'effetto framing, in cui la presentazione delle informazioni prevale sul contenuto semantico nella formazione dei giudizi. I ricercatori hanno scoperto che gli avversari possono sfruttare questo attraverso l'iniezione di bias contestuale, manipolando i metadati delle pull request (PR) per influenzare i giudizi di sicurezza come vettore di attacco alla supply chain. Lo studio ha testato 6 LLM in cinque condizioni di framing, scoprendo che il framing senza bug produceva l'effetto più forte. Ciò rappresenta un rischio per le pipeline ACR reali che integrano LLM come assistenti interattivi o agenti autonomi nei flussi di lavoro CI/CD.
Fatti principali
- Il paper arXiv 2603.18740 studia il rilevamento di vulnerabilità negli LLM nell'ACR
- L'effetto framing influenza i giudizi degli LLM nella revisione del codice
- L'iniezione di bias contestuale è un vettore di attacco alla supply chain
- 6 LLM testati in cinque condizioni di framing
- Il framing senza bug ha prodotto l'effetto più forte
- L'attacco prende di mira i metadati delle PR nelle pipeline CI/CD
- Gli LLM sono utilizzati come assistenti interattivi o agenti autonomi
- Lo studio è su larga scala ed esplorativo
Entità
Istituzioni
- arXiv