Distillazione della Conoscenza di DeepSeek-R1 per il Rilevamento di Clone di Codice Cross-Linguaggio

ai-technology · 2026-05-06

Un nuovo framework per la distillazione della conoscenza è stato introdotto dai ricercatori per migliorare le capacità di ragionamento di DeepSeek-R1, facilitando la loro integrazione in modelli open-source compatti per il rilevamento di clone di codice cross-linguaggio (X-CCD). Questo metodo affronta le sfide poste dai modelli linguistici di grandi dimensioni (LLM) come sistemi opachi, come problemi di costo, riproducibilità, privacy e formattazione incoerente dell'output. Utilizzando coppie di codice cross-linguaggio da Project CodeNet, generano dati di addestramento sintetici incentrati sul ragionamento e perfezionano Phi3 e Qwen-Coder utilizzando adattatori LoRA. Inoltre, implementano tecniche di stabilizzazione della risposta per mantenere una mappatura coerente delle etichette di clone binario. L'obiettivo di questa ricerca è potenziare i modelli compatti per rilevare efficacemente cloni semantici in vari linguaggi di programmazione.

Fatti principali

Il rilevamento di clone di codice cross-linguaggio (X-CCD) è impegnativo a causa della bassa somiglianza superficiale tra programmi semanticamente equivalenti in linguaggi diversi.
I modelli linguistici di grandi dimensioni (LLM) utilizzati come sistemi a scatola nera sollevano preoccupazioni su costo, riproducibilità, privacy e formattazione inaffidabile dell'output.
I modelli open-source compatti spesso faticano con prompt orientati al ragionamento e una mappatura coerente delle etichette di clone binario.
Un framework di distillazione della conoscenza trasferisce le capacità di ragionamento da DeepSeek-R1 a modelli studenti open-source compatti.
Coppie di codice cross-linguaggio da Project CodeNet vengono utilizzate per costruire dati di addestramento sintetici orientati al ragionamento.
Phi3 e Qwen-Coder vengono messi a punto con adattatori LoRA.
Vengono introdotti metodi di stabilizzazione della risposta per migliorare la coerenza dell'output.
Il framework mira a consentire ai modelli compatti di rilevare efficacemente cloni semantici tra linguaggi.

Distillazione della Conoscenza di DeepSeek-R1 per il Rilevamento di Clone di Codice Cross-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti