
Son yıllarda, AI kodlama araçları yazılım mühendislerinin iş akışlarını köklü bir şekilde değiştirdi. Bu araçlar, Cursor ve GitHub Copilot gibi çözümlerle, kod yazmayı otomatikleştirerek, hataları düzeltmeye ve değişiklikleri test etmeye olanak tanıyor. OpenAI, Google DeepMind, Anthropic ve xAI gibi şirketlerin geliştirdiği yapay zeka modelleri, yazılım mühendisliği testlerinde son yıllarda performanslarını hızla artırdı.
Ancak, METR adlı kar amacı gütmeyen AI araştırma grubunun Perşembe günü yayımladığı yeni bir çalışma, günümüz AI kodlama araçlarının deneyimli geliştiricilerin verimliliğini ne ölçüde artırdığına dair soru işaretleri ortaya koyuyor.
METR, bu çalışmayı gerçekleştirmek için 16 deneyimli açık kaynak geliştiricisini işe aldı ve bu geliştiricilerin düzenli olarak katkıda bulunduğu büyük kod havuzlarında 246 gerçek görev tamamlamalarını sağladı. Araştırmacılar, görevlerin yaklaşık yarısını “AI kullanımına izin verilen” olarak belirleyerek, geliştiricilere Cursor Pro gibi en güncel AI kodlama araçlarını kullanma izni verdi; diğer yarısında ise AI araçlarının kullanımı yasaklandı.
Geliştiriciler, görevlerini tamamlamadan önce AI kodlama araçlarının tamamlanma sürelerini %24 oranında azaltacağını öngörmüşlerdi. Ancak bu, beklenildiği gibi çıkmadı.
“Şaşırtıcı bir şekilde, AI kullanımının aslında tamamlanma süresini %19 artırdığını buluyoruz – geliştiriciler AI araçları kullanırken daha yavaş çalışıyorlar,” diyor araştırmacılar.
Özellikle, çalışmadaki geliştiricilerin yalnızca %56’sı, çalışmada sunulan ana AI aracı olan Cursor ile deneyim sahibiydi. Geliştiricilerin neredeyse tamamı (%94) web tabanlı LLM’leri kodlama iş akışlarında kullanma deneyimine sahipti, ancak bu çalışma, bazıları için Cursor’u özel olarak kullanma fırsatıydı. Araştırmacılar, geliştiricilerin çalışma öncesinde Cursor kullanımı konusunda eğitim aldıklarını belirtiyor.
Buna rağmen, METR’nin bulguları, 2025 yılında AI kodlama araçlarının vaat edilen evrensel verimlilik artışları hakkında soru işaretleri doğuruyor. Çalışmaya dayanarak, geliştiricilerin AI kodlama araçlarının -özellikle “vibe coder” olarak adlandırılanların- iş akışlarını hemen hızlandıracağı varsayımında bulunmamaları gerektiği vurgulanıyor.
METR araştırmacıları, AI’nın geliştiricileri hızlandırmaktansa yavaşlatmasının birkaç olası nedenine işaret ediyor: Geliştiriciler, vibe coders kullanırken AI’yı yönlendirmek ve yanıt beklemek için çok daha fazla zaman harcıyorlar, bu da gerçek kod yazma süresini azaltıyor. AI ayrıca, bu testte kullanılan büyük ve karmaşık kod tabanlarında genellikle zorluk yaşamaktadır.
Çalışmanın yazarları, bu bulgulardan kesin sonuçlar çıkarmaktan kaçınarak, AI sistemlerinin halihazırda birçok veya çoğu yazılım geliştiricisini hızlandırmadığına inanmadıklarını vurguluyor. Diğer bazı büyük ölçekli çalışmalar, AI kodlama araçlarının yazılım mühendisliği iş akışlarını hızlandırdığına dair bulgular sunuyor.
Ayrıca, AI’nın son yıllarda kaydettiği ilerlemenin önemli olduğunu ve aynı sonuçları üç ay içinde beklemediklerini belirtmektedirler. METR, AI kodlama araçlarının son yıllarda karmaşık ve uzun vadeli görevleri tamamlamadaki yeteneklerini önemli ölçüde artırdığını da bulmuştur.
Ancak, araştırma, AI kodlama araçlarının vaat edilen kazançları konusunda bir kez daha şüpheci olmanın gerekçesini sunuyor. Diğer çalışmalar, günümüz AI kodlama araçlarının hatalar oluşturabileceğini ve bazı durumlarda güvenlik açıkları yaratabileceğini göstermiştir.