OpenAI’nin GPT-5’i, İnsanlarla Yarışıyor: Yapay Zeka ile İnsan Profesyonellerin Performansı Karşılaştırıldı

OpenAI, Perşembe günü, yapay zeka modellerinin çeşitli endüstrilerde ve mesleklerde insan profesyonellerle nasıl performans gösterdiğini test eden yeni bir benchmark duyurdu. GDPval olarak adlandırılan bu test, OpenAI’nın sistemlerinin ekonomik olarak değerli işlerde insanları ne kadar geride bıraktığını anlamaya yönelik ilk adımlardan biri. Bu, şirketin yapay genel zeka (AGI) geliştirme misyonunun önemli bir parçasını oluşturuyor.

OpenAI, GPT-5 modelinin ve Anthropic’in Claude Opus 4.1’in “sektör uzmanları tarafından üretilen işlerin kalitesine yaklaşmaya başladığını” belirtiyor.

Ancak bu, OpenAI’nın modellerinin hemen insanları işlerinden alacağı anlamına gelmiyor. Bazı CEO’ların yapay zekanın birkaç yıl içinde insan işlerini alacağı yönündeki tahminlerine rağmen, OpenAI, GDPval’ın günümüzde insanların gerçek işlerinde yaptığı görevlerin oldukça sınırlı bir sayısını kapsadığını kabul ediyor. Yine de, bu, şirketin AI’nın bu önemli hedefe doğru ilerlemesini ölçmenin en son yollarından biri.

GDPval, Amerika’nın gayri safi yurtiçi hasılasına en çok katkı sağlayan dokuz endüstriye dayanıyor. Bu endüstriler arasında sağlık hizmetleri, finans, imalat ve hükümet gibi alanlar bulunuyor. Benchmark, bu endüstrilerdeki 44 meslekte bir AI modelinin performansını test ediyor; yazılım mühendislerinden hemşirelere, gazetecilerden yatırım bankacılarına kadar geniş bir yelpazeyi kapsıyor.

OpenAI, testin ilk versiyonu GDPval-v0 için, deneyimli profesyonellerden, AI tarafından üretilen raporları diğer profesyoneller tarafından üretilenlerle karşılaştırmalarını ve en iyi olanı seçmelerini istedi. Örneğin, bir istekte yatırım bankacılarından son mil teslimat endüstrisi için rekabetçi bir manzara oluşturmaları ve AI tarafından üretilen raporlarla karşılaştırmaları istendi. OpenAI, bir AI modelinin “kazanma oranını” tüm 44 meslek arasında insan raporlarına karşı ortalamasını alıyor.

GPT-5-high, ekstra hesaplama gücüne sahip geliştirilmiş bir versiyon olan GPT-5 için, şirket, AI modelinin sektör uzmanları ile eşit veya daha iyi bir performans sergilediğini %40.6 oranında belirtiyor.

OpenAI ayrıca Anthropic’in Claude Opus 4.1 modelini test etti ve bu modelin, görevlerin %49’unda sektör uzmanları ile eşit veya daha iyi bir performansa sahip olduğunu açıkladı. OpenAI, Claude’un bu kadar yüksek puan almasının nedeninin, grafiklerdeki estetik başarısı olduğunu düşünüyor.

Görsel Kaynakları:OpenAI

Çoğu çalışan profesyonelin yalnızca araştırma raporları sunmakla kalmadığını belirtmek önemlidir; bu, GDPval-v0’ın test ettiği tek şey. OpenAI bunu kabul ediyor ve gelecekte daha fazla endüstriyi ve etkileşimli iş akışlarını hesaba katabilecek daha kapsamlı testler oluşturmayı planlıyor.

Yine de şirket, GDPval üzerindeki ilerlemeyi kayda değer buluyor.

TechCrunch ile yapılan bir röportajda OpenAI’nın baş ekonomisti Dr. Aaron Chatterji, GDPval sonuçlarının bu işlerdeki insanların artık AI modellerini daha anlamlı görevler üzerinde zaman harcamak için kullanabileceklerini öne sürdü. Chatterji, “Model bazı bu konularda iyi hale geldikçe, o işlerdeki insanlar, yetenekler geliştikçe modelden faydalanabilir ve potansiyel olarak daha yüksek değerli şeyler yapabilirler” dedi.

OpenAI’nın değerlendirmeleri, Tejal Patwardhan, GDPval üzerindeki ilerlemenin hızından memnun olduğunu söyledi. OpenAI’nın GPT-4o modeli, insanlarla karşılaştırıldığında yalnızca %13.7 oranında kazanma ve eşitlik oranı göstermişti. Şimdi ise GPT-5, neredeyse üç katı bir oranla puan alıyor; Patwardhan bu eğilimin devam etmesini bekliyor.

Silicon Valley, AI modellerinin ilerlemesini ölçmek ve belirli bir modelin son teknoloji olup olmadığını değerlendirmek için geniş bir yelpazede benchmark’lar kullanıyor. En popüler olanları arasında AIME 2025 (rekabetçi matematik problemleri testi) ve GPQA Diamond (Doktora seviyesinde bilim soruları testi) yer alıyor. Ancak birçok AI modeli, bu benchmark’larda saturasyona ulaşmaya yakın ve birçok AI araştırmacısı, AI’nın gerçek dünya görevlerindeki yeterliliğini ölçmek için daha iyi testler gerektiğini belirtmiştir.

GDPval gibi benchmark’lar, OpenAI’nın AI modellerinin çok çeşitli endüstriler için değerli olduğunu kanıtlaması açısından giderek daha önemli hale gelebilir. Ancak OpenAI’nın AI modellerinin insanları geride bıraktığını kesin olarak söyleyebilmesi için daha kapsamlı bir test versiyonuna ihtiyaç duyabilir.

Exit mobile version