Silicon Valley’nin AI Ajanları Eğitmek İçin Yeni Stratejisi: RL Ortamları

Son yıllarda, büyük teknoloji şirketlerinin CEO’ları, insanlara görevleri tamamlamak için yazılım uygulamalarını otonom bir şekilde kullanabilen AI ajanları ile ilgili vizyonlarını dile getirdiler. Ancak günümüzdeki tüketici AI ajanlarını denediğinizde, bu teknolojinin hala ne kadar sınırlı olduğunu hemen fark ediyorsunuz. AI ajanlarını daha güçlü hale getirmek için sektörde hâlâ keşfedilen yeni teknikler gerekecek.
Bu tekniklerden biri, ajanların çok adımlı görevlerde eğitilmesini sağlayan çalışma alanlarını özenle simüle etmektir; buna pek çok adım öğrenimi (Reinforcement Learning – RL) ortamları denir. Etiketlenmiş veri setlerinin AI’nin son dalgasını desteklemesi gibi, RL ortamları da ajanların gelişiminde kritik bir unsur haline gelmeye başlıyor.
AI araştırmacıları, girişimcileri ve yatırımcıları, önde gelen AI laboratuvarlarının artık daha fazla RL ortamı talep ettiğini belirtiyor ve bu ihtiyacı karşılamak için birçok girişimci harekete geçmiş durumda.
“Tüm büyük AI laboratuvarları, RL ortamlarını kendi bünyelerinde inşa ediyor,” diyor Andreessen Horowitz’ten genel ortak Jennifer Li. “Ancak, bu veri setlerini oluşturmanın oldukça karmaşık olduğunu düşünecek olursanız, AI laboratuvarları yüksek kaliteli ortamlar ve değerlendirmeler oluşturabilecek üçüncü taraf tedarikçilerini de araştırıyor. Herkes bu alana yöneliyor.”
RL Ortamları Nedir?
RL ortamları, AI ajanlarının gerçek bir yazılım uygulamasında ne yapacağını simüle eden eğitim alanlarıdır. Bir girişimci, bunları “çok sıkıcı bir video oyunu yaratmak” olarak tanımlıyor.
Örneğin, bir ortam, bir Chrome tarayıcısını simüle edebilir ve bir AI ajanına Amazon’dan bir çift çorap satın almasını görev olarak verebilir. Ajan, performansına göre puanlanır ve başarılı olduğunda (bu durumda, uygun bir çorap satın aldığında) ödüllendirilir.
Böyle bir görev basit görünse de, AI ajanın takılabileceği pek çok yer bulunmaktadır. Web sayfasının açılır menülerinde kaybolabilir veya fazla sayıda çorap satın alabilir. Geliştiriciler, bir ajanın hangi yanlış yola sapacağını öngöremediğinden, ortamın beklenmedik davranışları yakalayacak kadar sağlam olması ve yine de faydalı geri bildirim sağlaması gerekmektedir. Bu, ortamların oluşturulmasını statik veri setlerinden çok daha karmaşık hale getirir.
Rekabetçi Bir Alan
AI veri etiketleme şirketleri, RL ortamlarını inşa etmek için bu durumu değerlendirmeye çalışıyor. Scale AI, Surge ve Mercor gibi şirketler, bu alanda pek çok kaynağa sahip ve AI laboratuvarlarıyla derin ilişkileri var.
Surge CEO’su Edwin Chen, AI laboratuvarları içinde RL ortamlarına olan talepte “önemli bir artış” gördüğünü belirtiyor. Surge, OpenAI, Google, Anthropic ve Meta gibi AI laboratuvarlarıyla çalışarak geçen yıl yaklaşık 1.2 milyar dolar gelir elde etti ve RL ortamlarını geliştirmek için özel bir organizasyon kurdu.
Mercor, OpenAI, Meta ve Anthropic ile çalışmış bir girişimdir ve yatırımcılara, kodlama, sağlık ve hukuk gibi alanlarda spesifik görevler için RL ortamları inşa etme vaadinde bulunmaktadır. Mercor CEO’su Brendan Foody, RL ortamları etrafındaki fırsatın büyüklüğünü pek az kişinin anladığını dile getiriyor.
Scale AI, veri etiketleme alanında liderdi, ancak Meta’nın CEO’sunu alması ve 14 milyar dolarlık bir yatırım yapmasıyla pazar payını kaybetti. Google ve OpenAI, Scale AI ile olan bağlarını kopardı. Ancak Scale, ortamları inşa etme çabalarını sürdürmeye devam ediyor.
“Business modelimizin doğası böyle,” diyor Scale AI’nın ürün yöneticisi Chetan Rane. “Scale, hızlı bir şekilde adapte olma yeteneğini kanıtladı. Otonom araçların ilk iş kolunda bunu yapmıştık. ChatGPT çıktığında da Scale AI buna uyum sağladı. Şimdi, bir kez daha, ajanlar ve ortamlar gibi yeni sınır alanlarına uyum sağlıyoruz.”
Diğer yeni girişimler, en başından itibaren yalnızca RL ortamlarına odaklanıyor. Mechanize, “tüm işleri otomatikleştirme” hedefiyle altı ay önce kuruldu. Ancak, kurucu Matthew Barnett, şirketinin AI kodlama ajanları için RL ortamlarıyla başlayacağını belirtiyor.
Mechanize, AI laboratuvarlarına sağlam RL ortamları sunmayı hedefliyor. Şirket, RL ortamları oluşturmak için yazılım mühendislerine 500,000 dolar maaş teklif ediyor. Bu rakam, Scale AI veya Surge’deki bir saatlik çalışandan çok daha yüksektir.
Mechanize şu anda RL ortamları üzerinde Anthropic ile çalışıyor ve bu iş birliği hakkında yorum yapmadılar.
Büyüme Potansiyeli
RL ortamlarının büyüme potansiyeli, AI laboratuvarlarının daha fazla veri ve hesaplama kaynağı ekledikçe artıyor. Ancak bu ortamların nasıl ölçekleneceği henüz net değil. Bazı kişiler, bu RL ortamlarının başarılı olacağını sorguluyor. Bu konuda endişelerini dile getiren AI araştırmacıları, RL ortamlarının ödül hackleme gibi sorunlarla karşılaşabileceğini belirtiyor.
Sonuç olarak, RL ortamları, AI’nin geleceği hakkında önemli bir tartışma konusunu oluşturuyor. AI laboratuvarları, bu alanda daha fazla gelişim sağlamak için yoğun bir şekilde çalışırken, RL ortamlarının bu süreci nasıl etkileyeceği merakla bekleniyor.







