Teknoloji

OpenAI’nin o3 Modelinde Şeffaflık Tartışmaları Gün Yüzüne Çıkıyor!

OpenAI, Aralık ayında tanıttığı o3 AI modeli ile matematik sorunlarına yenilikçi bir yaklaşım getireceğini duyurmuştu. Şirket, FrontierMath benchmark’ında elde ettiğini iddia ettiği %25’in üzerindeki başarı oranı ile dikkat çekti. Ancak, bağımsız testler bu iddiaların gerçekle örtüşmediğini ortaya koydu. Epoch AI’nin gerçekleştirdiği testler, o3 modelinin yalnızca %10’luk bir başarı gösterdiğini belgeliyor. Bu durum, OpenAI’nin test yöntemleri ve şeffaflığı konusunda tartışmalara yol açtı.

OpenAI, o3 modelinin FrontierMath’taki rakiplerini geride bırakarak %25’in üzerinde bir başarı sağladığını belirtmişti. Ancak Epoch AI’nin bağımsız test sonuçları, modelin bu benchmark’ta sadece %10 başarı elde ettiğini gösteriyor. Epoch, test koşulları ve FrontierMath’ın güncellenmiş versiyonunun bu farkı açıklayabileceğini ifade etti. OpenAI ise halka sunulan o3 modelinin daha az hesaplama gücüyle ve gerçek dünya uygulamalarına odaklanarak optimize edildiğini savunuyor.

OpenAI’nin o3 ile ilgili açıklamaları, AI sektöründe sıkça gündeme gelen benchmark tartışmalarını yeniden alevlendirdi. ARC Prize Foundation, halka sunulan o3 modelinin test edilen daha güçlü versiyondan farklı olduğunu doğruladı. Ayrıca, Epoch’un OpenAI’den aldığı fonun geç açıklanması, akademik çevrelerde güvenilirlik meselelerini gündeme getirdi. Benzer şekilde, xAI ve Meta gibi diğer şirketler de yanıltıcı benchmark sonuçları nedeniyle eleştirilerin hedefi olmuştu.

OpenAI, o3-mini-high ve o4-mini modellerinin FrontierMath’ta o3’ü geçtiğini açıkladı ve yakın zamanda daha güçlü bir o3-pro modelini tanıtmayı planladığını duyurdu. Ancak bu gelişme, AI benchmark’larının yüzeysel bir şekilde değerlendirilmemesi gerektiğini bir kez daha vurguladı. Sektördeki rekabet, şirketlerin şeffaflık ve doğruluk konularında daha dikkatli davranmalarını zorunlu kılıyor.

World EDU Türkçe Editör

General Editor - Soru ve Eleştirileriniz için İLETİŞİM kısmından bağlantı kurabilirsiniz.

İlgili Makaleler

Bir yanıt yazın

Başa dön tuşu