La distillazione di indizi a posteriori potenzia gli agenti SWE senza dati di catena di pensiero

ai-technology · 2026-05-13

I ricercatori propongono Hindsight Hint Distillation (HHD), un metodo che migliora la pianificazione e il ragionamento degli agenti di ingegneria del software (SWE) senza richiedere costose annotazioni di catena di pensiero (CoT). HHD utilizza solo coppie domanda-risposta facili da ottenere, sintetizzando indizi a posteriori dai fallimenti del modello stesso per supportare rollout on-policy che completano i compiti. Il modello poi auto-distilla queste traiettorie e generalizza a nuovi problemi senza indizi. Esperimenti su SWE-bench Verified mostrano che HHD ottiene un miglioramento assoluto dell'8%, superando significativamente le baseline iterative RFT e trajectory-synthesis, che migliorano solo di circa il 2%.

Fatti principali

HHD richiede solo coppie domanda-risposta, non annotazioni CoT.
Gli indizi a posteriori sono sintetizzati dai fallimenti del modello stesso.
Il metodo supporta rollout on-policy che completano con successo i compiti.
Il modello auto-distilla le traiettorie supportate e generalizza senza indizi.
HHD ottiene un miglioramento assoluto dell'8% su SWE-bench Verified.
Le baseline (iterative RFT, trajectory-synthesis) migliorano solo di circa il 2%.
L'articolo è pubblicato su arXiv con ID 2605.11556.
HHD è ispirato a come gli insegnanti umani usano gli errori degli studenti per guidarli.

La distillazione di indizi a posteriori potenzia gli agenti SWE senza dati di catena di pensiero

Fatti principali

Entità

Istituzioni

Fonti