ARTFEED — Contemporary Art Intelligence

Modelli di linguaggio di codice ottimizzati per rilevare bug di programmazione cross-linguaggio

ai-technology · 2026-04-22

Un nuovo articolo di ricerca esplora l'utilizzo di modelli di linguaggio di codice pre-addestrati per identificare bug cross-linguaggio, che si verificano quando più linguaggi di programmazione interagiscono all'interno di un singolo progetto. Lo studio ha ottimizzato 13 diversi CodeLM su un dataset appositamente costruito che coinvolge tre combinazioni di linguaggi di programmazione: Python-C/C++, Java-C/C++ e Python-Java. I ricercatori hanno sviluppato CLCFinder, uno strumento per identificare codice cross-linguaggio, e creato un dataset contenente nove tipi distinti di interazione tra linguaggi. Dopo l'ottimizzazione, tutti i modelli hanno mostrato miglioramenti delle prestazioni, con UniXcoder-base che ha raggiunto il punteggio F1 più alto di 0,7407. L'indagine ha analizzato come fattori come la dimensione del dataset, la lunghezza della sequenza di token e i commenti nel codice influenzino le capacità di rilevamento. La programmazione multilingue è diventata sempre più comune grazie ai suoi vantaggi, ma introduce bug che gli strumenti tradizionali single-linguaggio faticano a rilevare. L'articolo è stato annunciato come arXiv:2507.21954v2 con un tipo di annuncio replace-cross.

Fatti principali

  • 13 modelli di linguaggio di codice sono stati ottimizzati per il rilevamento di bug cross-linguaggio
  • UniXcoder-base ha ottenuto il miglior punteggio F1 di 0,7407
  • Il dataset includeva tre combinazioni di linguaggi di programmazione: Python-C/C++, Java-C/C++ e Python-Java
  • I ricercatori hanno sviluppato CLCFinder per l'identificazione del codice cross-linguaggio
  • Il dataset conteneva nove diversi tipi di interazione tra linguaggi di programmazione
  • Tutti i modelli hanno mostrato miglioramenti delle prestazioni dopo l'ottimizzazione
  • La programmazione multilingue è sempre più comune ma introduce bug cross-linguaggio
  • L'articolo è stato annunciato come arXiv:2507.21954v2 con tipo replace-cross

Entità

Fonti