LLM messi a punto per rilevare codice generato da macchine a SemEval-2026
Un team ha presentato sistemi a SemEval-2026 Task 13, che si concentra sul rilevamento di frammenti di codice generati da macchine in più linguaggi di programmazione. Il compito include rilevamento binario, attribuzione della fonte, identificazione della famiglia di LLM generatori e rilevamento di codice ibrido o modificato in modo avversariale. Il team ha adattato l'approccio mdok esistente, originariamente progettato per testo generato da macchine, esplorando modelli di base più adatti alla comprensione del codice. I loro sistemi si sono dimostrati competitivi in tutti e tre i sottocompiti, sebbene i sistemi con le migliori prestazioni li abbiano superati con margini significativi, indicando spazio per miglioramenti.
Fatti principali
- SemEval-2026 Task 13 affronta il rilevamento multi-dominio di codice generato da macchine.
- Il compito include rilevamento binario, attribuzione della fonte, rilevamento della famiglia di LLM generatori e rilevamento di codice ibrido/avversariale.
- I sistemi presentati hanno adattato l'approccio mdok per il rilevamento specifico del codice.
- Sono stati esplorati diversi modelli di base per una migliore comprensione del codice.
- I sistemi sono stati competitivi in tutti e tre i sottocompiti.
- I margini rispetto ai sistemi con le migliori prestazioni rimangono significativi.
- Il lavoro è pubblicato su arXiv sotto Computer Science > Machine Learning.
- L'articolo è intitolato 'mcdok at SemEval-2026 Task 13: Finetuning LLMs for Detection of Machine-Generated Code'.
Entità
Istituzioni
- arXiv
- SemEval