Sliceformer: LM consapevole del flusso di dati per il taglio statico del programma
Un team di ricercatori ha introdotto Sliceformer, un metodo innovativo che ridefinisce il taglio statico del programma come un problema sequenza-a-sequenza utilizzando modelli linguistici compatti come CodeT5+. Questa tecnica impiega obiettivi di pre-addestramento consapevoli del flusso di dati che utilizzano grafi del flusso di dati (DFG) per aiutare i modelli a comprendere le dipendenze dei dati tramite permutazione delle istruzioni che preserva il flusso di dati e corruzione di span consapevole del flusso di dati. Questo progresso affronta i problemi riscontrati negli attuali metodi basati sull'apprendimento, che spesso lottano con una modellazione precisa delle dipendenze e una generazione senza restrizioni, portando all'inclusione di token e istruzioni inventati nelle slice. I risultati sono documentati in arXiv:2604.26961.
Fatti principali
- Il taglio statico del programma isola il codice rilevante per variabili specifiche.
- Sliceformer utilizza modelli linguistici piccoli come CodeT5+.
- Il pre-addestramento consapevole del flusso di dati sfrutta i grafi del flusso di dati (DFG).
- Il pre-addestramento include la permutazione delle istruzioni che preserva il flusso di dati.
- Il pre-addestramento include la corruzione di span consapevole del flusso di dati.
- Gli LM esistenti soffrono di una modellazione imprecisa delle dipendenze.
- Gli LM esistenti producono slice con token e istruzioni allucinati.
- L'approccio è dettagliato in arXiv:2604.26961.
Entità
—