ARTFEED — Contemporary Art Intelligence

Studio Rivela che gli Agenti di Programmazione IA Spesso Deviano dai Piani Istruiti

ai-technology · 2026-04-15

Un nuovo articolo di ricerca analizza quanto bene gli agenti IA seguono piani specifici durante la risoluzione di compiti di ingegneria del software. Lo studio esamina 16.991 traiettorie di agenti da SWE-agent attraverso quattro grandi modelli linguistici sui dataset SWE-bench Verified e SWE-bench Pro. I ricercatori hanno testato otto diverse variazioni di piano per valutare la conformità. Senza istruzioni esplicite, gli agenti ricadono su flussi di lavoro interiorizzati piuttosto che seguire indicazioni strategiche. L'articolo sostiene che comprendere la conformità ai piani è cruciale per determinare se le soluzioni derivano da un ragionamento appropriato o da contaminazione dei dati e overfitting dei benchmark. Questa rappresenta la prima indagine sistematica su come gli agenti di programmazione aderiscono ai piani istruiti durante cicli autonomi di ragionamento-azione-osservazione. La ricerca è stata pubblicata su arXiv con identificatore 2604.12147v1.

Fatti principali

  • L'articolo analizza 16.991 traiettorie di agenti da SWE-agent
  • Esamina quattro grandi modelli linguistici
  • Utilizza i dataset SWE-bench Verified e SWE-bench Pro
  • Testa otto diverse variazioni di piano
  • Prima analisi sistematica della conformità ai piani negli agenti di programmazione
  • Pubblicato su arXiv come 2604.12147v1
  • Gli agenti ricadono su flussi di lavoro interiorizzati senza piani espliciti
  • L'analisi di conformità necessaria per distinguere il ragionamento appropriato dalla contaminazione dei dati

Entità

Istituzioni

  • arXiv

Fonti