SweRank: Localizzazione Efficiente di Issue Software tramite Code Ranking
È stato sviluppato un nuovo framework chiamato SweRank per affrontare la sfida della localizzazione di issue software, che consiste nell'individuare le posizioni del codice corrispondenti a descrizioni in linguaggio naturale come segnalazioni di bug o richieste di funzionalità. Mentre gli attuali metodi agentici basati su LLM mostrano promesse, sono ostacolati da latenza e costi significativi a causa della loro dipendenza da ragionamenti multi-step e LLM closed-source. I modelli tradizionali di code ranking, che si concentrano sul recupero query-to-code o code-to-code, trovano difficoltà nel gestire la natura verbosa e orientata ai fallimenti delle query di localizzazione di issue. SweRank è un framework retrieve-and-rerank volto a migliorare efficienza ed efficacia. Per facilitare l'addestramento, i ricercatori hanno costruito SweLoc, un dataset completo proveniente da repository GitHub pubblici, contenente descrizioni autentiche di issue collegate a posizioni di codice pertinenti. Questa ricerca è presentata nell'articolo arXiv 2505.07849.
Fatti principali
- SweRank è un framework retrieve-and-rerank per la localizzazione di issue software.
- Affronta le limitazioni degli agenti basati su LLM (latenza, costo) e dei modelli tradizionali di code ranking.
- SweLoc è un dataset su larga scala costruito da repository GitHub pubblici.
- Il dataset abbina descrizioni di issue reali a posizioni di codice.
- L'articolo è disponibile su arXiv con ID 2505.07849.
- La localizzazione di issue identifica file, classi o funzioni rilevanti per una descrizione.
- Gli approcci basati su LLM spesso utilizzano modelli closed-source e ragionamenti complessi.
- I modelli tradizionali di code ranking non sono ottimizzati per descrizioni verbose di issue.
Entità
Istituzioni
- arXiv
- GitHub