DeepMind’in Yeni Modeli Genie 3: Yapay Genel Zeka İçin Önemli Bir Adım
Google DeepMind, genel amaçlı yapay zeka ajanlarını eğitmek için kullanılabilecek en son temel dünya modeli olan Genie 3‘ü tanıttı. Bu yenilik, AI laboratuvarının belirttiğine göre, “yapay genel zeka” ya da insan benzeri zekaya ulaşma yolunda kritik bir adım niteliğinde.
Shlomi Fruchter, DeepMind’da araştırma direktörü, basın toplantısında yaptığı açıklamada, “Genie 3, gerçek zamanlı etkileşimli genel amaçlı bir dünya modelidir. Önceki dar dünya modellerinin ötesine geçmektedir. Belirli bir ortama özgü değildir. Hem foto-gerçekçi hem de hayali dünyalar oluşturabilir, aradaki her şeyi kapsar” dedi.

Henüz araştırma aşamasında olan Genie 3, önceki modeli Genie 2‘nin (ajanlar için yeni ortamlar oluşturabilen) ve DeepMind’ın en son video üretim modeli Veo 3‘ün (fizik konusunda derin bir anlayışa sahip olduğu belirtiliyor) üzerine inşa edilmiştir.
Basit bir metin komutuyla, Genie 3, 24 kare/saniye hızında 720p çözünürlükte birkaç dakika süren etkileşimli 3D ortamlar oluşturabilir; bu, Genie 2’nin üretebildiği 10-20 saniyeden önemli bir sıçramadır. Model ayrıca, üretilen dünyayı değiştirmek için bir komut kullanma yeteneği olan “komutlu dünya olayları” özelliğine sahiptir.
En önemlisi, Genie 3’ün simülasyonları zamanla fiziksel olarak tutarlı kalıyor, çünkü model daha önce ürettiği şeyleri hatırlayabiliyor; bu, DeepMind’ın araştırmacılarının modelin içerisine açıkça programlamadığı bir yetenektir.
Fruchter, Genie 3’ün eğitim deneyimleri, oyun veya yaratıcı konseptlerin prototiplenmesi için önemli sonuçlar doğurabileceğini, ancak gerçek potansiyelinin genel amaçlı görevler için ajanların eğitilmesinde açığa çıkacağını belirtti. Bu, AGI’ye ulaşmak için kritik bir adım olarak değerlendiriliyor.
Jack Parker-Holder, DeepMind’ın açık uçluluk ekibinden bir araştırma bilimcisi, toplantıda “Dünya modellerinin AGI yolunda anahtar olduğunu düşünüyoruz, özellikle de gerçek dünya senaryolarını simüle etmek söz konusu olduğunda” dedi.

Genie 3, bu darboğazı aşmak için tasarlandığı söyleniyor. Veo gibi, katı bir fizik motoruna bağlı değildir; bunun yerine, DeepMind’a göre, model, ürettiği dünyayı nasıl çalıştığını — nesnelerin nasıl hareket ettiğini, düştüğünü ve etkileşimde bulunduğunu — hatırlayarak ve uzun zaman dilimleri boyunca akıl yürüterek öğrenir.
Fruchter, TechCrunch ile yaptığı bir röportajda, “Model oto-regresifdir, yani bir seferde bir kare üretir. Ne olacağını belirlemek için daha önce üretilenlere geri bakmak zorundadır. Bu, mimarinin anahtar bir parçasıdır” şeklinde bilgi verdi.
Bu bellek, şirketin belirttiğine göre, Genie 3’ün simüle edilmiş dünyalarında tutarlılık sağlamaktadır. Bu da, insanların bir masanın kenarında dengenin bozulduğunu görmek gibi fiziksel kavramları geliştirebilmesine olanak tanır.
Önemli olarak, DeepMind, modelin AI ajanlarını kendi deneyimlerinden öğrenmeye zorlayarak sınırlarını zorlayabileceğini, bu durumun insanların gerçek dünyada nasıl öğrendiğine benzer bir yaklaşım olduğunu belirtiyor.
Örneğin, DeepMind, Genie 3’ü, genel amaçlı Scalable Instructable Multiworld Agent (SIMA) ile test etti. Ajan, belirli hedefleri takip etmesi için yönlendirildi ve bir depo ortamında “parlak yeşil çöp sıkıştırıcısına yaklaş” veya “paketlenmiş kırmızı forklifta yürü” gibi görevler verildi.
Parker-Holder, “Üç durumda da SIMA ajanı hedefe ulaşmayı başardı. Ajan, hedefi alıyor, etrafındaki simüle edilmiş dünyayı görüyor ve ardından dünyada hareket ediyor. Genie 3 ileriye simüle ediyor ve başarmasının nedeni, Genie 3’ün tutarlı kalabilmesidir” dedi.

Ancak Genie 3’ün sınırlamaları var. Örneğin, araştırmacılar, fiziği anladığını iddia etse de, bir kayakçının dağdan aşağı doğru kayarken gösterilen demo, karın kayakçı ile nasıl etkileşimde bulunacağını yansıtmıyordu.
Ayrıca, bir ajanın alabileceği eylemler sınırlı. Komutlu dünya olayları geniş bir çevresel müdahale yelpazesi sağlasa da, bunlar mutlaka ajan tarafından gerçekleştirilmez. Ayrıca, paylaşılan bir ortamda birden fazla bağımsız ajanın karmaşık etkileşimlerini doğru bir şekilde modellemek hala zordur.
Genie 3, sürekli etkileşim için yalnızca birkaç dakika destekleyebilirken, etkili bir eğitim için saatler gereklidir.
Yine de, bu model, ajansların yalnızca girdilere tepki vermenin ötesine geçmesini sağlamakta, onlara potansiyel olarak plan yapma, keşfetme, belirsizlik arama ve deneme yanılma yoluyla gelişme imkanı tanımaktadır. Bu, birçok kişinin genel zeka yolunda anahtar olduğunu düşündüğü, kendiliğinden, bedensel öğrenim türüdür.
Parker-Holder, “Henüz bedensel ajanslar için gerçekten bir Move 37 anı yaşamadık; gerçek dünyada yeni eylemler alabilme yetenekleri yoktu” diyerek, 2016’daki Go oyununda DeepMind’ın AI ajansı AlphaGo ile dünya şampiyonu Lee Sedol arasındaki efsanevi anı hatırlattı. Bu an, AlphaGo’nun insan anlayışının ötesinde yeni stratejiler keşfetme yeteneğini sembolize ediyordu.
“Ama şimdi, potansiyel olarak yeni bir çağın kapılarını aralayabiliriz” dedi.






