SAFEdit: Framework Multi-Agente per l'Editing Affidabile del Codice
Il sistema multi-agente di nuova concezione, SAFEdit, mira a migliorare l'affidabilità dei compiti di editing del codice eseguiti da modelli linguistici di grandi dimensioni (LLM). Secondo il benchmark EditBench, 39 dei 40 modelli valutati mostrano un tasso di successo dei compiti (TSR) inferiore al 60%, evidenziando un notevole divario tra la generazione generale di codice e l'editing basato su istruzioni in condizioni di test eseguibili. SAFEdit suddivide il flusso di lavoro di editing in ruoli distinti: un Agente Pianificatore formula una strategia di editing chiara e attenta alla visibilità; un Agente Editor implementa modifiche minime e letterali al codice; e un Agente Verificatore esegue test effettivi. In caso di fallimenti dei test, un Livello di Astrazione dei Fallimenti (FAL) converte i log di test grezzi in informazioni diagnostiche organizzate, che vengono poi utilizzate dall'Editor per ulteriori perfezionamenti. Le prestazioni del framework vengono confrontate con i precedenti metodi a singolo modello, come discusso nell'articolo.
Fatti principali
- SAFEdit è un framework multi-agente per l'editing del codice su istruzione.
- Decompone l'editing in agenti Pianificatore, Editor e Verificatore.
- Un Livello di Astrazione dei Fallimenti (FAL) converte i log di test in feedback strutturati.
- Il benchmark EditBench mostra che 39 dei 40 modelli hanno un TSR inferiore al 60%.
- Il framework mira a ridurre le modifiche involontarie al codice.
- Il perfezionamento iterativo è supportato tramite cicli di feedback.
- L'articolo è su arXiv con ID 2604.25737.
- SAFEdit viene confrontato con i precedenti approcci a singolo modello.
Entità
Istituzioni
- arXiv