La distillazione di indizi a posteriori potenzia gli agenti SWE senza dati di catena di pensiero
I ricercatori propongono Hindsight Hint Distillation (HHD), un metodo che migliora la pianificazione e il ragionamento degli agenti di ingegneria del software (SWE) senza richiedere costose annotazioni di catena di pensiero (CoT). HHD utilizza solo coppie domanda-risposta facili da ottenere, sintetizzando indizi a posteriori dai fallimenti del modello stesso per supportare rollout on-policy che completano i compiti. Il modello poi auto-distilla queste traiettorie e generalizza a nuovi problemi senza indizi. Esperimenti su SWE-bench Verified mostrano che HHD ottiene un miglioramento assoluto dell'8%, superando significativamente le baseline iterative RFT e trajectory-synthesis, che migliorano solo di circa il 2%.
Fatti principali
- HHD richiede solo coppie domanda-risposta, non annotazioni CoT.
- Gli indizi a posteriori sono sintetizzati dai fallimenti del modello stesso.
- Il metodo supporta rollout on-policy che completano con successo i compiti.
- Il modello auto-distilla le traiettorie supportate e generalizza senza indizi.
- HHD ottiene un miglioramento assoluto dell'8% su SWE-bench Verified.
- Le baseline (iterative RFT, trajectory-synthesis) migliorano solo di circa il 2%.
- L'articolo è pubblicato su arXiv con ID 2605.11556.
- HHD è ispirato a come gli insegnanti umani usano gli errori degli studenti per guidarli.
Entità
Istituzioni
- arXiv