Yeni AI Kodlama Yarışması İlk Sonuçlarını Yayınladı – Şaşırtıcı Sonuçlar Ortaya Çıktı

Yeni bir AI kodlama yarışması, ilk kazananını açıkladı ve AI destekli yazılım mühendisleri için yeni bir standart belirledi.
Çarşamba günü PST saatine göre 17:00’de, kar amacı gütmeyen Laude Enstitüsü, Databricks ve Perplexity’nin kurucusu Andy Konwinski tarafından başlatılan K Ödülü’nün ilk kazananını duyurdu. Kazanan, sadece %7.5 oranında doğru cevapla yarışmayı kazanan Brezilyalı bir prompt mühendisi olan Eduardo Rocha de Andrade oldu. Bu başarı, ona 50,000 dolarlık ödül kazandırdı.
Konwinski, “Gerçekten zor bir kıstas geliştirdiğimiz için mutluyuz” dedi. “Eğer kıstaslar önemli olacaksa zor olmalılar” diye ekledi. “Büyük laboratuvarların en büyük modelleriyle katılması durumunda puanlar farklı olurdu. Ancak asıl amaç bu. K Ödülü, sınırlı hesaplama gücüyle çevrimdışıdır, bu nedenle daha küçük ve açık modelleri destekler. Bunu seviyorum. Rekabeti eşitliyor.”
Konwinski, testte %90’dan fazla puan alabilen ilk açık kaynak modeline 1 milyon dolar ödül vermeyi taahhüt etti.
K Ödülü, iyi bilinen SWE-Bench sistemiyle benzerlik gösteriyor; GitHub’dan alınan belirtilen sorunları test ederek modellerin gerçek dünya programlama problemleriyle ne kadar başa çıkabildiğini ölçüyor. Ancak SWE-Bench, modellerin karşılık verebileceği sabit bir problem setine dayanırken, K Ödülü, benchmark’a özgü eğitimden kaçınmak için zaman sınırlı bir giriş sistemi kullanarak “kontaminasyonsuz bir SWE-Bench versiyonu” olarak tasarlandı. İlk tur için modellerin teslim tarihi 12 Mart’tı. K Ödülü organizatörleri, bu tarihten sonra yalnızca GitHub’da işaretlenen sorunları kullanarak testi oluşturdu.
%7.5’lik en yüksek puan, SWE-Bench’in daha kolay ‘Onaylı’ testinde %75 ve daha zor ‘Tam’ testinde %34 puan ortalaması ile dikkat çekici bir zıtlık oluşturuyor. Konwinski, bu farklılığın SWE-Bench’teki kontaminasyondan mı yoksa GitHub’dan yeni sorunlar toplamakta yaşanan zorluktan mı kaynaklandığından henüz emin değil, ancak K Ödülü projesinin bu soruyu yakında cevaplayacağını bekliyor.
“Daha fazla yarışma gerçekleştirdikçe, daha iyi bir anlayışa sahip olacağız,” dedi. “Çünkü insanların her birkaç ayda bir bu dinamiklere uyum sağlamasını bekliyoruz.”
AI kodlama araçlarının zaten geniş bir yelpazede mevcut olduğu düşünülünce, burada başarısız olmak garip görünebilir. Ancak kıstasların çok kolay hale gelmesiyle birlikte, birçok eleştirmen K Ödülü gibi projeleri AI’nın büyüyen değerlendirme sorununu çözmek için gerekli bir adım olarak görüyor.
Princeton araştırmacısı Sayash Kapoor, mevcut kıstaslar için yeni testler geliştirmek konusunda umutlu olduğunu belirtiyor. “Böyle deneyler olmadan, sorunun kontaminasyon mu yoksa sadece SWE-Bench liderlik tablosunu hedefleyen insanlı bir süreçle mi ilgili olduğunu anlayamayız” diyor.
Konwinski için, bu sadece daha iyi bir kıstas değil, aynı zamanda endüstrinin geri kalanı için açık bir meydan okuma. “Hype’ı dinlerseniz, AI doktorları, AI avukatları ve AI yazılım mühendisleri görmeliyiz gibi görünüyor. Ancak bu doğru değil,” diyor. “Kontaminasyonsuz bir SWE-Bench’te %10’dan fazla puan alamıyorsak, bu benim için bir gerçeklik kontrolü.”






