ARTFEED — Contemporary Art Intelligence

Il codice generato da LLM contiene spesso versioni vulnerabili di librerie

ai-technology · 2026-05-09

Uno studio di misurazione su larga scala di 10 modelli linguistici di grandi dimensioni (LLM) sul benchmark PinTrace rivela che le versioni di librerie specificate dagli LLM nel codice Python includono frequentemente vulnerabilità note. Quando sollecitati direttamente, i modelli hanno specificato identificatori di versione dal 26,83% al 95,18% delle volte, ma solo dal 6,45% al 59,19% durante la creazione di un file manifest. Tra le versioni specificate, dal 36,70% al 55,70% dei task contenevano almeno una CVE nota, con dal 62,75% al 74,51% classificate come Critiche o ad Alta gravità. Nel 72,27% al 91,37% dei casi, le vulnerabilità erano state divulgate pubblicamente prima del cutoff di conoscenza del modello. Lo studio, pubblicato su arXiv (2605.06279), è la prima misurazione sistematica del rischio a livello di versione nel codice generato da LLM.

Fatti principali

  • Lo studio ha valutato 10 LLM sul benchmark PinTrace di 1.000 task di Stack Overflow
  • Gli LLM hanno specificato identificatori di versione dal 26,83% al 95,18% quando sollecitati direttamente
  • Solo dal 6,45% al 59,19% hanno specificato versioni durante la creazione di un file manifest
  • Dal 36,70% al 55,70% dei task avevano almeno una CVE nota
  • Dal 62,75% al 74,51% delle CVE erano Critiche o ad Alta gravità
  • Dal 72,27% al 91,37% delle CVE erano state divulgate prima del cutoff di conoscenza del modello
  • Prima misurazione su larga scala del rischio a livello di versione nel codice Python generato da LLM
  • Articolo pubblicato su arXiv con ID 2605.06279

Entità

Istituzioni

  • arXiv

Fonti