ARTFEED — Contemporary Art Intelligence

La distillazione di indizi a posteriori potenzia gli agenti SWE senza dati di catena di pensiero

ai-technology · 2026-05-13

I ricercatori propongono Hindsight Hint Distillation (HHD), un metodo che migliora la pianificazione e il ragionamento degli agenti di ingegneria del software (SWE) senza richiedere costose annotazioni di catena di pensiero (CoT). HHD utilizza solo coppie domanda-risposta facili da ottenere, sintetizzando indizi a posteriori dai fallimenti del modello stesso per supportare rollout on-policy che completano i compiti. Il modello poi auto-distilla queste traiettorie e generalizza a nuovi problemi senza indizi. Esperimenti su SWE-bench Verified mostrano che HHD ottiene un miglioramento assoluto dell'8%, superando significativamente le baseline iterative RFT e trajectory-synthesis, che migliorano solo di circa il 2%.

Fatti principali

  • HHD richiede solo coppie domanda-risposta, non annotazioni CoT.
  • Gli indizi a posteriori sono sintetizzati dai fallimenti del modello stesso.
  • Il metodo supporta rollout on-policy che completano con successo i compiti.
  • Il modello auto-distilla le traiettorie supportate e generalizza senza indizi.
  • HHD ottiene un miglioramento assoluto dell'8% su SWE-bench Verified.
  • Le baseline (iterative RFT, trajectory-synthesis) migliorano solo di circa il 2%.
  • L'articolo è pubblicato su arXiv con ID 2605.11556.
  • HHD è ispirato a come gli insegnanti umani usano gli errori degli studenti per guidarli.

Entità

Istituzioni

  • arXiv

Fonti