Metriche di Valutazione del Codice Testate per il Rilevamento del Plagio
Un nuovo studio apparso su arXiv (2604.25778) analizza l'efficacia delle Metriche di Valutazione del Codice (CEM) nel rilevare il plagio del codice sorgente attraverso sei livelli di modifiche, da L1 a L6. I ricercatori hanno valutato diverse metriche, tra cui CodeBLEU, CrystalBLEU, RUBY, Tree Structured Edit Distance (TSED) e CodeBERTScore, utilizzando i dataset ConPlag e IRPlag. Hanno anche confrontato queste metriche con strumenti leader come JPlag e Dolos. I risultati mostrano che, senza preelaborazione, queste metriche non sono molto efficaci nell'individuare il plagio.
Fatti principali
- Lo studio confronta cinque CEM con i migliori SCPDT JPlag e Dolos
- Utilizza i dataset ConPlag (grezzo e senza template) e IRPlag
- Valuta il plagio attraverso i livelli di modifica L1-L6
- CEM testate: CodeBLEU, CrystalBLEU, RUBY, TSED, CodeBERTScore
- Per la valutazione vengono utilizzate misure basate sul ranking senza soglia
- I risultati indicano che le CEM non possono rilevare il plagio in modo affidabile senza preelaborazione
- Pubblicato su arXiv con ID 2604.25778
- Si concentra sull'integrità accademica nell'educazione all'ingegneria del software
Entità
Istituzioni
- arXiv