Teknoloji

Yapay Zeka Kod Araçları Terminalde Devrim Yaratıyor

Yıllardır, Cursor, Windsurf ve GitHub’ın Copilot gibi kod düzenleme araçları, yapay zeka destekli yazılım geliştirmede standart olarak kabul ediliyordu. Ancak, ajanik yapay zekanın gücünün artması ve vibe kodlamanın popülerleşmesiyle birlikte, yapay zeka sistemlerinin yazılımla etkileşimi konusunda önemli bir değişim yaşanıyor.

Artık, bu sistemler doğrudan kurulu oldukları sistemlerin kabuklarıyla etkileşimde bulunuyor. Bu, yapay zeka destekli yazılım geliştirme süreçlerinde kayda değer bir değişim yaratıyor ve görünüşte düşük profilli olsa da, bu durumun gelecekteki etkileri büyük olabilir.

Terminal, 90’ların hacker filmlerinden hatırladığınız siyah-beyaz ekranla en çok bilinen arayüzdür; programları çalıştırmanın ve verileri manipüle etmenin oldukça eski bir yoludur. Günümüz kod editörleri kadar görsel olarak etkileyici olmasa da, kullanmasını bilenler için son derece güçlü bir arayüz sunmaktadır. Kod tabanlı ajanlar kod yazıp hata ayıklayabilse de, yazılımdan kullanılabilir bir ürün elde etmek için genellikle terminal araçlarına ihtiyaç duyulur.

Bu değişimin en net işareti büyük laboratuvarlardan geldi. Şubat ayından bu yana, Anthropic, DeepMind ve OpenAI, sırasıyla Claude Code, Gemini CLI ve CLI Codex adlı komut satırı kodlama araçlarını piyasaya sürdü ve bu ürünler şimdiden şirketlerin en popüler ürünleri arasında yer aldı.

Terminale yönelik bu kayma, önceki kodlama araçlarıyla aynı marka altında faaliyet gösterdikleri için gözden kaçabilir. Ancak, arka planda, ajanların diğer bilgisayarlarla etkileşim şekillerinde gerçek değişiklikler yaşanıyor ve bazı uzmanlar bu değişikliklerin daha yeni başladığını düşünüyor.

“Büyük bir bahisimiz var ki, gelecekte LLM-bilgisayar etkileşiminin %95’i terminal benzeri bir arayüz üzerinden gerçekleşecek,” diyor Terminal-Bench’in ortak yaratıcısı Mike Merrill.

Terminal tabanlı araçlar, öne çıkan kod tabanlı araçların belirsizlikler yaşadığı bir dönemde kendi kimliklerini bulmaya başlıyor. AI kod editörü Windsurf, birbirine zıt satın almalar sonucunda büyük zorluklarla karşı karşıya kaldı. Üst düzey yöneticiler Google tarafından işe alındı ve kalan şirket, Cognition tarafından satın alındı; bu durum tüketici ürününün uzun vadeli geleceğini belirsiz hale getirdi.

Bu arada, yeni araştırmalar, programcıların geleneksel araçlardan sağladıkları verimlilik artışını abarttıklarını gösteriyor. Cursor Pro’nun, Windsurf’un en büyük rakibi olduğu belirtilen bir METR çalışması, geliştiricilerin görevleri %20 ila %30 daha hızlı tamamlayacaklarını tahmin ettiklerini, ancak gözlemlenen sürecin neredeyse %20 daha yavaş olduğunu ortaya koydu. Kısacası, kod asistanı aslında programcılara zaman kaybettiriyordu.

Bu durum, Warp gibi şirketler için bir fırsat doğurdu; şu anda Terminal-Bench’in zirvesinde bulunuyor. Warp, IDE programları ile komut satırı araçları arasında bir orta alan olarak kendini “ajanik geliştirme ortamı” olarak tanımlıyor.

Ancak Warp kurucusu Zach Lloyd, terminalin, Cursor gibi bir kod editörünün kapsamına girmeyen sorunları çözmek için bir yol sunduğuna inanıyor.

“Terminal, geliştirici yığınında çok düşük bir seviyeye sahiptir, bu nedenle ajanları çalıştırmak için en çok yönlü yerdir,” diyor Lloyd.

Yeni yaklaşımın nasıl farklı olduğunu anlamak için, kullanılan ölçütleri incelemek faydalı olabilir. Kod tabanlı araçların üretimi, GitHub sorunlarını çözmeye odaklanarak SWE-Bench testinin temelini oluşturuyor. SWE-Bench’deki her problem, GitHub’dan alınan açık bir sorundur; temel olarak, çalışmayan bir kod parçasıdır.

Modeller, kod üzerinde iterasyon yaparak çalışabilecek bir çözüm bulana kadar devam ederler. Entegre ürünler, Cursor gibi sorunlara daha sofistike yaklaşımlar geliştirmiştir, ancak GitHub/SWE-Bench modeli, bu araçların sorunu ele alma biçiminde halen merkezi bir rol oynamaktadır: bozuk bir kodla başlayıp, çalışır hale getirmek.

Terminal tabanlı araçlar, daha geniş bir perspektiften bakarak, bir programın çalıştığı tüm ortamı incelemektedir. Bu, kodlama ile birlikte bir Git sunucusunu yapılandırmak veya bir scriptin neden çalışmadığını çözmek gibi daha DevOps odaklı görevleri de kapsamaktadır.

Bir TerminalBench problemi, bir sıkıştırma programı ve bir hedef metin dosyası vererek, ajana eşleşen bir sıkıştırma algoritmasını ters mühendislik yapma görevini verir. Başka bir görevde ise, ajanın kaynak kodunu indirerek Linux çekirdeğini kaynak kodundan derlemesi istenir. Bu sorunların çözülmesi, programcıların ihtiyaç duyduğu türden ısrarcı problem çözme yeteneğini gerektirmektedir.

“TerminalBench’in zor olmasının nedeni, sadece ajanslara verdiğimiz sorular değil,” diyor Terminal-Bench’in ortak yaratıcısı Alex Shaw. “Ajanları yerleştirdiğimiz ortamlar da bunun bir parçası.”

Bu yeni yaklaşım, bir sorunu adım adım ele almak anlamına geliyor; bu da ajanik yapay zekanın güçlü kılan aynı beceridir. Ancak, en gelişmiş ajanik modeller bile tüm bu ortamlarda başa çıkamaz. Warp, Terminal-Bench’de %50’den fazla problemi çözerek yüksek puanını kazandı; bu, ölçütün ne kadar zorlayıcı olduğunu ve terminalin tam potansiyelini açmak için hala ne kadar çalışılması gerektiğini gösteriyor.

Yine de, Lloyd, terminal tabanlı araçların geliştiricilerin kodlama dışındaki işlerinin çoğunu güvenilir bir şekilde yönetebileceği bir noktaya geldiğine inanıyor; bu, göz ardı edilemeyecek bir değer önerisidir.

“Yeni bir proje oluşturma, bağımlılıkları belirleme ve çalışır hale getirme gibi günlük işleri düşündüğünüzde, Warp bunun çoğunu otonom bir şekilde yapabilir,” diyor Lloyd. “Ve yapamazsa, neden yapamadığını size söyleyecektir.”

World EDU Türkçe Editör

General Editor - Soru ve Eleştirileriniz için İLETİŞİM kısmından bağlantı kurabilirsiniz.

İlgili Makaleler

Bir yanıt yazın

Başa dön tuşu