SWE-chat: Primo Dataset su Larga Scala di Sessioni Reali di Agenti di Codifica
SWE-chat è stato introdotto dai ricercatori come il primo ampio dataset di interazioni genuine di agenti di codifica, provenienti da sviluppatori open-source. Il dataset comprende 6.000 sessioni, con oltre 63.000 prompt utente e 355.000 chiamate a strumenti effettuate dagli agenti. È progettato come una risorsa dinamica, dotata di un sistema automatico che identifica e processa continuamente sessioni da repository pubblici. Risultati preliminari indicano due distinti comportamenti di codifica: nel 41% delle sessioni, gli agenti generano quasi tutto il codice committato (definito "vibe coding"), mentre nel 23% gli umani producono tutto il codice in modo indipendente. Nonostante i progressi, gli agenti di codifica mostrano un'efficienza limitata in scenari reali, con solo il 44% dei loro output considerati utili. Questo dataset mira a fornire approfondimenti concreti sull'uso pratico degli agenti di codifica AI e sull'utilità dei loro output.
Fatti principali
- SWE-chat è il primo dataset su larga scala di sessioni reali di agenti di codifica.
- Il dataset contiene 6.000 sessioni, oltre 63.000 prompt utente e 355.000 chiamate a strumenti degli agenti.
- Dati raccolti da sviluppatori open-source in ambienti reali.
- SWE-chat è un dataset vivo con scoperta e processamento automatici.
- Il 41% delle sessioni è 'vibe coding', dove gli agenti scrivono la maggior parte del codice.
- Il 23% delle sessioni vede umani scrivere tutto il codice da soli.
- Solo il 44% degli output degli agenti è utile in contesti naturali.
- Lo studio fornisce una caratterizzazione empirica dell'uso degli agenti di codifica e delle modalità di fallimento.
Entità
—