OpenAI’nin AI Alanındaki İnovasyon Yolculuğu
2022 yılında OpenAI’ye araştırmacı olarak katılan Hunter Lightman, meslektaşlarının dünyanın en hızlı büyüyen ürünlerinden biri olan ChatGPT’yi piyasaya sürüşüne tanıklık etti. Bu sırada, Lightman, OpenAI’nin modellerini lise matematik yarışmalarında çözüm üretmeleri için eğiten bir ekibin parçası olarak sessizce çalışıyordu.
Bugün, MathGen olarak bilinen bu ekip, OpenAI’nin sektör lideri AI akıl yürütme modellerini yaratma çabasının temel taşlarından biri olarak kabul ediliyor: İnsan gibi bilgisayarda görevleri yerine getirebilen AI ajanlarının arkasındaki ana teknoloji.
Lightman, MathGen’in erken çalışmalarını tanımlarken, “Modelleri matematiksel akıl yürütmede daha iyi hale getirmeye çalışıyorduk, o zamanlar pek başarılı değildiler” dedi.
OpenAI’nin modelleri bugün mükemmel olmaktan uzak; şirketin en son AI sistemleri hâlâ yanıltıcı sonuçlar veriyor ve ajanları karmaşık görevlerde zorluk yaşıyor.
Ancak, en son teknolojik modelleri matematiksel akıl yürütmede önemli ilerlemeler kaydetti. OpenAI’nin bir modeli, dünyanın en zeki lise öğrencileri için düzenlenen Uluslararası Matematik Olimpiyatı’nda altın madalya kazandı. OpenAI, bu akıl yürütme yeteneklerinin diğer konulara da yansıyacağına ve nihayetinde şirketin her zaman hayalini kurduğu genel amaçlı ajanları güçlendireceğine inanıyor.
ChatGPT, düşük profilli bir araştırma önizlemesinin virale dönüşmesiyle oluşan bir başarıydı; ancak OpenAI’nin ajanları, yıllar süren, bilinçli bir çabanın ürünüdür.
OpenAI CEO’su Sam Altman, 2023’teki ilk geliştirici konferansında, “Sonunda bilgisayardan ihtiyacınız olanı isteyeceksiniz ve o sizin için tüm bu görevleri yerine getirecek,” dedi. “Bu yetenekler AI alanında genellikle ajanlar olarak adlandırılıyor. Bunun avantajları muazzam olacak.”

Ajanların Altman’ın vizyonunu karşılayıp karşılamayacağı henüz belirsiz, ancak OpenAI, 2024 sonbaharında ilk AI akıl yürütme modeli olan o1’i piyasaya sürdüğünde dünyayı şaşırttı. Bu çığır açan başarıyı elde eden 21 araştırmacı, Silikon Vadisi’nde en çok aranan yetenekler haline geldi.
Güçlendirme Öğrenimi Yeniden Doğuyor
OpenAI’nin akıl yürütme modellerinin ve ajanlarının yükselişi, güçlendirme öğrenimi (RL) olarak bilinen bir makine öğrenimi eğitim tekniği ile bağlantılıdır. RL, bir AI modeline, simüle edilmiş ortamlarda hangi seçimlerin doğru olduğunu geri bildirim yoluyla öğretir.
RL on yıllardır kullanılmaktadır. Örneğin, OpenAI’nin 2015 yılında kurulmasından yaklaşık bir yıl sonra, Google DeepMind tarafından geliştirilen RL kullanan bir AI sistemi olan AlphaGo, dünya şampiyonunu yenerek küresel dikkat çekti.

Bu dönemde, OpenAI’nin ilk çalışanlarından biri olan Andrej Karpathy, RL’yi kullanarak bir bilgisayarı kullanabilen bir AI ajanı yaratmayı düşünmeye başladı. Ancak OpenAI’nin gerekli modelleri ve eğitim tekniklerini geliştirmesi yıllar aldı.
2018 yılına gelindiğinde, OpenAI, devasa internet verileri ve büyük GPU kümeleri üzerinde önceden eğitimli ilk büyük dil modelini GPT serisinde geliştirdi. GPT modelleri metin işleme konusunda mükemmel oldu, nihayetinde ChatGPT’ye yol açtı, ancak temel matematikte zorluklar yaşadı.
OpenAI, 2023’te “Q*” ve daha sonra “Strawberry” olarak adlandırılan bir atılım gerçekleştirdi. Bu atılım, LLM’leri, RL’yi ve test zamanı hesaplama adı verilen bir tekniği birleştirerek, modellere bir sorunun yanıtını vermeden önce planlama ve sorunları çözme için ekstra zaman ve işlem gücü sağladı.
Bu, OpenAI’nin, daha önce karşılaşmadığı matematik sorularında AI performansını artıran yeni bir yaklaşım olan “zihin zinciri” (CoT) yöntemini tanıtmasını sağladı.
Lightman, “Modelin akıl yürütmeye başladığını görebiliyordum,” dedi. “Hataları fark ediyor, geri dönüyor, hayal kırıklığına uğruyordu. Gerçekten birinin düşüncelerini okumak gibiydi.”
Bu teknikler tek başına yeni olmasa da, OpenAI bunları benzersiz bir şekilde birleştirerek Strawberry’yi oluşturdu, bu da doğrudan o1’in geliştirilmesine yol açtı. OpenAI, akıl yürütme modellerinin planlama ve doğrulama yeteneklerinin AI ajanlarını güçlendirmede faydalı olabileceğini hızla belirledi.
Lightman, “Bir sorunu çözmeyi başardığımızı söyleyebilirim ki, bu benim araştırma kariyerimdeki en heyecan verici anlardan biriydi,” dedi.
Akıl Yürütmeyi Ölçeklendirmek
OpenAI, AI akıl yürütme modelleri ile iki yeni eksen belirledi: AI modellerinin eğitim sonrası daha fazla işlem gücü kullanması ve bir soruya yanıt verirken AI modellerine daha fazla zaman ve işlem gücü verilmesi.
Lightman, “OpenAI olarak, sadece mevcut durumu değil, gelecekte nasıl ölçekleneceğini de düşünüyoruz,” dedi.
2023’teki Strawberry atılımının ardından, OpenAI, bu yeni paradigmada daha fazla ilerleme kaydetmek için OpenAI araştırmacısı Daniel Selsam liderliğinde bir “Ajanlar” ekibi oluşturdu. İki kaynak, OpenAI’nin başlangıçta akıl yürütme modelleri ile ajanlar arasında ayrım yapmadığını belirtti; şirket, AI sistemlerinin karmaşık görevleri tamamlayabilmesini istiyordu.
Sonunda, Selsam’ın Ajanlar ekibinin çalışmaları, o1 akıl yürütme modelinin geliştirilmesi için daha büyük bir projenin parçası haline geldi, liderler arasında OpenAI’nin kurucu ortağı Ilya Sutskever, baş araştırma sorumlu Mark Chen ve baş bilim insanı Jakub Pachocki bulunuyor.

OpenAI, o1’i oluşturmak için değerli kaynakları — özellikle yetenek ve GPU’ları — yönlendirmek zorunda kaldı. OpenAI tarihinin her aşamasında, araştırmacılar kaynak almak için şirket liderleri ile müzakere yapmak zorunda kaldı; çığır açan başarıları göstermek, bu kaynakları güvence altına almanın en etkili yoluydu.
Lightman, “OpenAI’nin temel bileşenlerinden biri, araştırmanın tamamen alt tabandan yukarıya doğru olmasıdır,” dedi. “o1 için kanıtları gösterdiğimizde, şirket ‘Bu mantıklı, bunu devam ettirelim’ dedi.”
Bazı eski çalışanlar, startup’ın AGI geliştirme misyonunun AI akıl yürütme modellerindeki atılımları elde etmenin ana faktörü olduğunu belirtiyor. En akıllı AI modellerini geliştirmeye odaklanarak, OpenAI, o1’i diğer çabalardan öncelikli hale getirmeyi başardı. Diğer AI laboratuvarlarında bu tür büyük yatırımlar her zaman mümkün olmuyordu.
Yeni eğitim yöntemlerini denemek kararı, öngörülü bir seçim oldu. 2024 sonuna gelindiğinde, birçok önde gelen AI laboratuvarı, geleneksel ön eğitim ölçeklendirme ile üretilen modellerde azalan geri dönüşler görmeye başladı. Bugün, AI alanındaki ilerleme büyük ölçüde akıl yürütme modellerindeki gelişmelerden kaynaklanıyor.
Bir AI’nın “Akıl Yürütmesi” Ne Anlama Geliyor?
Birçok açıdan, AI araştırmasının amacı, bilgisayarlarla insan zekasını yeniden yaratmaktır. o1’in lansmanından bu yana, ChatGPT kullanıcı deneyimi daha insana benzer özellikler ile dolu; “düşünme” ve “akıl yürütme” gibi.
OpenAI’nin modellerinin gerçekten akıl yürütüp yürütmediği sorulduğunda, El Kishky, bu kavramı bilgisayar bilimi açısından düşündüğünü belirtti.
“Modelin, bir yanıt almak için hesaplama süresini verimli bir şekilde harcamasını öğretiyoruz. Eğer bunu böyle tanımlarsanız, evet, akıl yürütme var,” dedi El Kishky.
Lightman ise modelin sonuçlarına odaklanmayı tercih ediyor, yöntemlerinin veya insan beyinleriyle ilişkilerinin çok da önemli olmadığını düşünüyor.

Lightman, “Model zor şeyler yapıyorsa, o zaman bunu yapabilmek için gerekli olan akıl yürütme yaklaşımını gerçekleştiriyor demektir,” dedi. “Buna akıl yürütme diyebiliriz, çünkü bu akıl yürütme izlerine benziyor, ama hepsi, insanların bir dizi güçlü ve faydalı AI araçları yaratma çabası için bir aracı ifade ediyor.”
OpenAI araştırmacıları, insanların adlandırma veya akıl yürütme tanımları konusunda anlaşamayabileceğini kabul ediyor; eleştiriler de ortaya çıkıyor, ancak modellerinin yeteneklerinin daha önemli olduğunu savunuyorlar. Diğer AI araştırmacıları da bu görüşe katılıyor.
AI2’den Nathan Lambert, AI akıl yürütme modlarını bir blog yazısında uçaklara benzetiyor. Her ikisi de doğadan ilham alınmış insan yapımı sistemlerdir; insan akıl yürütmesi ve kuş uçuşu, ancak tamamen farklı mekanizmalarla çalışıyorlar. Bu, onları daha az kullanışlı veya benzer sonuçlar elde etme yeteneklerinden yoksun kılmıyor.
OpenAI, Anthropic ve Google DeepMind’den bir grup AI araştırmacısı, yakın zamanda bir pozisyon belgesinde, AI akıl yürütme modellerinin bugün iyi anlaşılmadığını ve daha fazla araştırmaya ihtiyaç olduğunu kabul etti. Onların içinde tam olarak neyin gerçekleştiğini kesin olarak söylemek için belki de çok erken.
Sonraki Sınır: Öznel Görevler İçin AI Ajanları
Bugün piyasada bulunan AI ajanları, en iyi şekilde iyi tanımlanmış, doğrulanabilir alanlarda çalışıyor; örneğin kodlama gibi. OpenAI’nin Codex ajanı, yazılım mühendislerinin basit kodlama görevlerini devretmelerine yardımcı olmayı hedefliyor. Bu arada, Anthropic’in modelleri, AI kodlama araçları gibi Cursor ve Claude Code’da özellikle popüler hale geldi; bunlar, insanların ödemeye istekli olduğu ilk AI ajanları arasında yer alıyor.
Ancak, OpenAI’nin ChatGPT Ajanı ve Perplexity’nin Comet gibi genel amaçlı AI ajanları, insanların otomatikleştirmek istediği karmaşık, öznel görevlerde zorluk yaşıyor. Bu araçları çevrimiçi alışveriş veya uzun dönem park yeri bulma gibi görevler için kullanmaya çalıştığımda, ajanların istediğimden daha uzun sürdüğünü ve saçma hatalar yaptığını gördüm.
Ajanlar, elbette, erken sistemlerdir ve kesinlikle gelişeceklerdir. Ancak araştırmacılar, önce öznel görevleri tamamlayacak şekilde temel modelleri daha iyi eğitmeyi anlamalıdır.

Lightman, öznel görevlerde ajanların sınırlamaları hakkında konuştuğunda, “Birçok makine öğrenimi sorununda olduğu gibi, bu bir veri sorunu,” dedi. “Şu anda çok heyecan duyduğum araştırmalardan biri, doğrulanabilir olmayan görevlerde nasıl eğitim yapılacağını anlamak. Bu konuda bazı ipuçlarımız var.”
OpenAI’nin IMO modeli ve o1’i geliştiren araştırmacı Noam Brown, TechCrunch’a, OpenAI’nin yeni genel amaçlı RL tekniklerine sahip olduğunu ve bu tekniklerin AI modellerini kolayca doğrulanamayan becerileri öğretmelerine izin verdiğini söyledi. Bu, şirketin IMO’da altın madalya kazanan modeli nasıl oluşturduğunu ifade etti.
OpenAI’nin IMO modeli, birden fazla ajan yaratan daha yeni bir AI sistemidir; bu ajanlar, aynı anda birden fazla fikri keşfeder ve ardından en iyi olası cevabı seçer. Bu tür AI modelleri giderek daha popüler hale geliyor; Google ve xAI, bu tekniği kullanarak son zamanlarda son teknoloji modelleri piyasaya sürdü.
Brown, “Bu modellerin matematikte daha yetenekli hale geleceğini düşünüyorum ve diğer akıl yürütme alanlarında da daha yetenekli hale geleceklerini düşünüyorum,” dedi. “İlerleme son derece hızlı oldu. Bunun yavaşlayacağını düşünmüyorum.”
Bu teknikler, OpenAI’nin modellerinin daha iyi performans göstermesine yardımcı olabilir ve bu gelişmeler, şirketin gelecek GPT-5 modelinde kendini gösterebilir. OpenAI, GPT-5’in lansmanı ile rakiplerine karşı üstünlüğünü sağlamayı umuyor; ideal olarak, geliştiriciler ve tüketiciler için ajanları destekleyecek en iyi AI modelini sunmak istiyor.
Ancak şirket, ürünlerini kullanmayı da daha basit hale getirmek istiyor. El Kishky, OpenAI’nin kullanıcıların neyi istediğini sezgisel olarak anlayan AI ajanları geliştirmeyi hedeflediğini belirtti; belirli ayarları seçmelerini gerektirmeden. OpenAI, hangi araçların ne zaman kullanılacağını ve ne kadar süreyle akıl yürütmesi gerektiğini anlayan AI sistemleri inşa etmeyi amaçlıyor.
Bu fikirler, ChatGPT’nin nihai bir versiyonunu hayal ediyor: internet üzerinde sizin için her şeyi yapabilen ve bunu nasıl yapmanız gerektiğini anlayan bir ajan. Bu, ChatGPT’nin bugün sunduğu üründen çok farklı bir ürün, ancak şirketin araştırmaları kesinlikle bu yönde ilerliyor.
OpenAI, birkaç yıl önce AI endüstrisine öncülük etmesine rağmen, şimdi değerli rakiplerle karşı karşıya. Artık soru, sadece OpenAI’nin ajan geleceğini sunup sunamayacağı değil, aynı zamanda Google, Anthropic, xAI veya Meta’nın onları geçmeden bunu yapıp yapamayacağıdır.




