AI ajanları işe hazır mı? APEX-Agents benchmark’ı ciddi şüpheler uyandırıyor

Yapay zekanın vaatleri ve sahadaki gerçeklik

İki yıl kadar önce teknoloji dünyasında yayılan iddia, yapay zekanın bilgi işi alanındaki rolleri dönüştüreceği yönündeydi. Ancak geniş çaplı foundation model gelişmelerine rağmen, avukatlık, yatırım bankacılığı, danışmanlık, muhasebe ve BT gibi beyaz yakalı işler üzerinde somut bir değişim hâlâ sınırlı kaldı.

APEX-Agents: Gerçek mesleki görevlerle yapılan sınav

Son araştırma, bu sorunun cevabını arayan yeni bir benchmark sunuyor: APEX-Agents. Araştırma, danışmanlık, yatırım bankacılığı ve hukuk gibi alanlardan alınmış gerçek profesyonellerin görevleri üzerinden öne çıkan yapay zeka modellerinin performansını ölçüyor. Sonuçlar, birçok yapay zeka laboratuvarı için alarm niteliğinde: en başarılı modeller bile soruların ancak yaklaşık dörtte birini doğru yanıtlayabildi.

En büyük zayıflık: Çoklu kaynaklarda bilgi takibi

Araştırmacılar, modellerin en çok zorlandığı alanın farklı platform ve belgeler arasında bilgi takip etme yeteneği olduğunu belirtiyor. Gerçek profesyonel işler genellikle birden fazla araç ve belgeden (ör. sohbetler, sürücüler, raporlar) bağlam toplamayı gerektiriyor; pek çok ajan tabanlı sistemde bu tür çoklu alan muhakemesi hâlâ kararsız.

Görsel: Haber içeriğinde kullanılan ekran görüntüsü.

Gerçek sorular, gerçek standartlar

Benchmark için hazırlanan senaryolar, platform üzerindeki uzman profesyoneller tarafından oluşturuldu; aynı uzmanlar başarılı bir yanıtın ölçütlerini de belirledi. Hukuk bölümünden örnek bir soru, bir şirketin AB üretim ortamı kesintisi sırasında ABD’ye kişisel verilerin ihraç edilmesi durumunun AB düzenlemeleriyle ne ölçüde bağdaşacağını sorguluyordu. Doğru sonuca ulaşmak, hem şirket politikalarının hem de ilgili AB gizlilik hukuku hükümlerinin derinlemesine analizini gerektiriyor.

Benchmarktaki fark: Uzun soluklu, dar kapsamlı görevler

APEX-Agents, bazı diğer kıyaslamalardan farklı olarak geniş meslek yelpazesi yerine dar ve yüksek değerli mesleklere odaklanıyor. Bu yaklaşım, modellerin sürdürülebilir, profesyonel düzeyde görevleri yerine getirip getiremeyeceğini daha doğrudan ölçüyor ve otomasyon potansiyeline dair daha somut veriler sağlıyor.

Performans: Henüz ‘uzman’ değil, daha çok stajyer seviyesi

Testte öne çıkan performanslar şöyle: Gemini 3 Flash bir atışta %24 doğrulukla en yüksek sonucu elde etti; bunu %23 ile GPT-5.2 takip etti. Diğer modeller (Opus 4.5, Gemini 3 Pro, GPT-5 gibi) yaklaşık %18 civarında performans gösterdi. Araştırmacılar, şu anki durum için benzetmeyi şöyle yapıyor: modeller, bir stajyer gibi; bazen doğru yanıt veriyor ama genel olarak güvenilirlik yeterli değil.

Gelecek için açık bir meydan okuma

APEX-Agents kamuya açık bir benchmark olduğu için, yapay zeka ekipleri bu teste karşı kendilerini geliştirme fırsatı bulacak. Araştırmacılar, yıllık hızlı ilerlemeler sayesinde doğruluk oranlarının hızla yükselebileceğini ve bunun ekonomide kısa sürede etkiler yaratabileceğini vurguluyor.

Sonuç

Mevcut modeller, beyaz yakalı mesleklere tam anlamıyla entegre olabilecek seviyede değil. En büyük eksiklikler çoklu kaynaklardan bağlam çıkarma ve uzun süreli, sektöre özgü muhakeme yeteneğinde. Ancak benchmark’ın ortaya koyduğu şeffaflık, gelişmelerin nerede yoğunlaşması gerektiğine dair net sinyaller gönderiyor ve önümüzdeki dönemde bu alanda hızlı ilerlemeler görmek sürpriz olmayacaktır.

Exit mobile version