Studio Rivela che gli Agenti di Programmazione IA Spesso Deviano dai Piani Istruiti

ai-technology · 2026-04-15

Un nuovo articolo di ricerca analizza quanto bene gli agenti IA seguono piani specifici durante la risoluzione di compiti di ingegneria del software. Lo studio esamina 16.991 traiettorie di agenti da SWE-agent attraverso quattro grandi modelli linguistici sui dataset SWE-bench Verified e SWE-bench Pro. I ricercatori hanno testato otto diverse variazioni di piano per valutare la conformità. Senza istruzioni esplicite, gli agenti ricadono su flussi di lavoro interiorizzati piuttosto che seguire indicazioni strategiche. L'articolo sostiene che comprendere la conformità ai piani è cruciale per determinare se le soluzioni derivano da un ragionamento appropriato o da contaminazione dei dati e overfitting dei benchmark. Questa rappresenta la prima indagine sistematica su come gli agenti di programmazione aderiscono ai piani istruiti durante cicli autonomi di ragionamento-azione-osservazione. La ricerca è stata pubblicata su arXiv con identificatore 2604.12147v1.

Fatti principali

L'articolo analizza 16.991 traiettorie di agenti da SWE-agent
Esamina quattro grandi modelli linguistici
Utilizza i dataset SWE-bench Verified e SWE-bench Pro
Testa otto diverse variazioni di piano
Prima analisi sistematica della conformità ai piani negli agenti di programmazione
Pubblicato su arXiv come 2604.12147v1
Gli agenti ricadono su flussi di lavoro interiorizzati senza piani espliciti
L'analisi di conformità necessaria per distinguere il ragionamento appropriato dalla contaminazione dei dati

Studio Rivela che gli Agenti di Programmazione IA Spesso Deviano dai Piani Istruiti

Fatti principali

Entità

Istituzioni

Fonti