Modelli LLM Locali Raggiungono il 43-45% di Accuratezza nel Rilevamento di Bug Python

ai-technology · 2026-04-29

È stata condotta un'indagine empirica per valutare l'efficacia dei modelli linguistici di grandi dimensioni (LLM) implementati localmente nel rilevamento di bug Python in applicazioni reali, utilizzando il benchmark BugsInPy. La ricerca si è concentrata su LLaMA 3.2 e Mistral, analizzando 349 bug provenienti da 17 progetti diversi attraverso un metodo di prompting zero-shot a livello di funzione, insieme a un framework di valutazione automatizzato basato su parole chiave. I risultati indicano che i modelli eseguiti localmente raggiungono un'accuratezza compresa tra il 43% e il 45%, fornendo spesso risposte parzialmente corrette che evidenziano aree problematiche del codice senza offrire soluzioni specifiche. Lo studio sottolinea significative variazioni di performance tra i progetti e affronta le limitazioni delle ricerche precedenti che dipendevano da modelli basati su cloud o hardware specializzato, limitandone l'uso in contesti sensibili alla privacy o con risorse limitate.

Fatti principali

LLaMA 3.2 e Mistral sono stati valutati per il rilevamento di bug Python.
Sono stati utilizzati 349 bug provenienti da 17 progetti del benchmark BugsInPy.
È stato impiegato il prompting zero-shot a livello di funzione.
L'accuratezza variava dal 43% al 45%.
Molte risposte erano parzialmente corrette, identificando regioni problematiche ma non soluzioni esatte.
Le performance variavano significativamente tra i progetti.
Lo studio affronta le limitazioni dei modelli basati su cloud in contesti sensibili alla privacy.
Il framework di valutazione era automatizzato e basato su parole chiave.

Modelli LLM Locali Raggiungono il 43-45% di Accuratezza nel Rilevamento di Bug Python

Fatti principali

Entità

Istituzioni

Fonti