Strumenti di codifica AI gonfiano le metriche di produttività, rivela un'indagine di uno sviluppatore
Lo sviluppatore software William O'Connell ha condotto un'indagine indipendente sull'accuratezza delle metriche di generazione di codice AI riportate dagli IDE più diffusi. Testando Windsurf (ex Codeium) e Cursor, ha scoperto che entrambi gli strumenti sovrastimano significativamente la percentuale di codice attribuita all'AI. La metrica "% nuovo codice scritto da Windsurf" (PCW) di Windsurf ha riportato un contributo AI del 98% per il suo lavoro, nonostante i test manuali abbiano mostrato un valore molto inferiore. Il bias deriva dal conteggio dei simboli di chiusura aggiunti automaticamente e del testo incollato come non umani, mentre viene accreditato all'AI tutto il codice spostato dallo strumento. La metrica "AI Share of Committed Code" di Cursor ha performato meglio ma ha comunque rivendicato una generazione AI al 100% per un file in cui sono state modificate solo le virgolette. O'Connell avverte che metriche così distorte potrebbero indurre la direzione a sopravvalutare gli strumenti AI, influenzando potenzialmente le dimensioni dei team e le considerazioni legali sul copyright del codice generato dall'AI. Conclude che i fornitori hanno incentivi finanziari a riportare percentuali AI elevate e non ci si dovrebbe fidare della loro capacità di misurare accuratamente il proprio impatto.
Fatti principali
- La metrica PCW di Windsurf ha riportato il 98% di codice generato dall'AI per il lavoro di O'Connell.
- Windsurf conta i simboli di chiusura aggiunti automaticamente come non umani, creando un bias verso l'AI.
- Il testo incollato non viene conteggiato come contributo umano in Windsurf.
- La metrica basata sulle righe di Cursor ha rivendicato il 100% di AI per un file in cui sono state modificate solo le virgolette.
- Entrambi gli strumenti usano protobuf per la codifica dei dati, complicando l'analisi.
- Le analisi di Windsurf si aggiornano quasi istantaneamente nonostante dichiarino intervalli di tre ore.
- L'integrazione Git in Windsurf sembra inesistente nonostante la documentazione la menzioni.
- Cursor offre analisi solo sul suo piano Team.
- O'Connell ha testato creando file identici manualmente e tramite AI, poi confrontando byte e conteggi di righe.
- L'indagine è stata pubblicata sul blog personale di O'Connell.
Entità
Artisti
- William O'Connell
Istituzioni
- Windsurf
- Codeium
- Cursor
- GitHub Copilot
- Amazon Kiro
- Cognition
- Devin