Il codice generato da LLM contiene spesso versioni vulnerabili di librerie

ai-technology · 2026-05-09

Uno studio di misurazione su larga scala di 10 modelli linguistici di grandi dimensioni (LLM) sul benchmark PinTrace rivela che le versioni di librerie specificate dagli LLM nel codice Python includono frequentemente vulnerabilità note. Quando sollecitati direttamente, i modelli hanno specificato identificatori di versione dal 26,83% al 95,18% delle volte, ma solo dal 6,45% al 59,19% durante la creazione di un file manifest. Tra le versioni specificate, dal 36,70% al 55,70% dei task contenevano almeno una CVE nota, con dal 62,75% al 74,51% classificate come Critiche o ad Alta gravità. Nel 72,27% al 91,37% dei casi, le vulnerabilità erano state divulgate pubblicamente prima del cutoff di conoscenza del modello. Lo studio, pubblicato su arXiv (2605.06279), è la prima misurazione sistematica del rischio a livello di versione nel codice generato da LLM.

Fatti principali

Lo studio ha valutato 10 LLM sul benchmark PinTrace di 1.000 task di Stack Overflow
Gli LLM hanno specificato identificatori di versione dal 26,83% al 95,18% quando sollecitati direttamente
Solo dal 6,45% al 59,19% hanno specificato versioni durante la creazione di un file manifest
Dal 36,70% al 55,70% dei task avevano almeno una CVE nota
Dal 62,75% al 74,51% delle CVE erano Critiche o ad Alta gravità
Dal 72,27% al 91,37% delle CVE erano state divulgate prima del cutoff di conoscenza del modello
Prima misurazione su larga scala del rischio a livello di versione nel codice Python generato da LLM
Articolo pubblicato su arXiv con ID 2605.06279

Il codice generato da LLM contiene spesso versioni vulnerabili di librerie

Fatti principali

Entità

Istituzioni

Fonti