Google'ın metinden görüntüye AI modeli Imagen, ilk (çok sınırlı) halka açık gezisini gerçekleştiriyor - World EDU Türkçe | Akademi, Teknoloji, Haber, Yorum & Analiz

Google, metinden görüntüye yapay zeka sistemlerinin piyasaya sürülmesi konusunda son derece temkinli davranıyor. Şirketin Imagen modeli , OpenAI'nin DALL-E 2 veya Stability AI'nin Stabil Difüzyon'una eşit kalitede çıktı üretmesine rağmen, Google, sistemi halka sunmadı.

Ancak bugün, arama devi, teknoloji hakkında erken geri bildirim toplamanın bir yolu olarak AI Test Kitchen uygulamasına çok sınırlı bir biçimde Imagen ekleyeceğini duyurdu.

AI Test Kitchen, Google'ın çeşitli AI sistemlerini beta testi için bir yol olarak bu yılın başlarında piyasaya sürüldü. Şu anda uygulama, Google'ın metin modeli LaMDA ile etkileşim kurmak için birkaç farklı yol sunuyor (evet, mühendisin duyarlı olduğunu düşündüğüyle aynı ) ve şirket yakında "sezon" dediği şeyin bir parçası olarak benzer şekilde kısıtlı Imagen isteklerini ekleyecek. uygulamaya iki ”güncelleme. Kısacası, Google'ın bugünkü duyurudan önce The Verge'de demosunu yaptığı Imagen ile etkileşim kurmanın iki yolu olacak: “City Dreamer” ve “Wobble”.

City Dreamer'da kullanıcılar, modelden kendi seçtikleri bir tema (örneğin, balkabağı, kot veya renkli blerg) etrafında tasarlanmış bir şehirden öğeler oluşturmasını isteyebilir. Imagen, SimCity'de gördüğünüze benzer izometrik modeller olarak görünen tüm tasarımlarla örnek binalar ve araziler (şehir meydanı, apartman bloğu, havaalanı vb.) oluşturur.

a:hover]:text-black [&>a]:shadow-underline-gray-13 [&>a:hover]:shadow-underline-black text-gray-13″> *“City Dreamer” görevi, kullanıcıların izometrik tasarımlarda temalı şehir binaları talep etmelerini sağlar.*

Wobble'da küçük bir canavar yaratırsınız. Neden yapıldığını (kil, keçe, badem ezmesi, kauçuk) seçebilir ve ardından istediğiniz kıyafeti giydirebilirsiniz. Model canavarınızı yaratır, ona bir isim verir ve sonra onu "dans etmek" için bir çeşit dürtebilir ve dürtebilirsiniz. Yine, modelin çıktısı, bana göre Pixar'ın Monsters, Inc. tasarımları ile Spore'daki karakter yaratıcı özelliği arasında bir geçiş gibi görünen çok özel bir estetikle sınırlıdır. (AI ekibinden biri Will Wright hayranı olmalı.)

Bu etkileşimler, diğer metinden görüntüye modellere kıyasla son derece kısıtlıdır ve kullanıcılar istedikleri herhangi bir şeyi talep edemezler. Yine de bu, Google tarafından kasıtlı. Google'da ürün yönetimi kıdemli direktörü Josh Woodward'ın The Verge'e açıkladığı gibi, AI Test Kitchen'ın tüm amacı a) bu AI sistemleri hakkında halktan geri bildirim almak ve b) insanların onları nasıl kıracakları hakkında daha fazla bilgi edinmek.

Woodward, AI Test Kitchen kullanıcılarının LaMDA özelliklerini nasıl bozduklarına dair herhangi bir spesifik örneği tartışmak konusunda isteksizdi, ancak modelden belirli yerleri tanımlaması istendiğinde bir zayıflığın ortaya çıktığını belirtiyor.

Woodward, “Tarihlerde farklı zamanlarda farklı insanlar için yerler farklı şeyler ifade eder, bu nedenle insanların sisteme belirli bir yer koymaya ve sistemin ne ürettiğini görmeye çalıştıkları oldukça yaratıcı yollar gördük” diyor. Woodward, hangi yerlerin tartışmalı açıklamalar üretebileceği sorulduğunda, Tulsa, Oklahoma örneğini veriyor. “20'lerde Tulsa'da bir dizi ırk isyanı vardı” diyor. "Ve eğer birisi 'Tulsa'yı koyarsa, model buna atıfta bulunmayabilir bile… Ve bunu dünyanın dört bir yanındaki yerler ile hayal edebilirsiniz."

a:hover]:text-black [&>a]:shadow-underline-gray-13 [&>a:hover]:shadow-underline-black text-gray-13″> *“Wobble” özelliği, kullanıcıların bir canavar tasarlamasına ve onu dans ettirmesine olanak tanır.*

Burada satır aralarını okuyun: Bir yapay zeka modelinden Almanya'daki Orta Çağ kasabası Dachau'yu tanımlamasını istediğinizi hayal edin. Modelin cevabının orada inşa edilen Nazi toplama kampına atıfta bulunmasını ister miydiniz, istemez miydiniz? Kullanıcının bu bilgiyi aradığını nasıl anlarsınız? Ve herhangi bir koşulda onu atlamak kabul edilebilir mi? Birçok yönden, metin arayüzlü yapay zeka modelleri tasarlamanın sorunları, aramada ince ayar yapmanın zorluklarına benzer: Bir kullanıcının isteklerini onları mutlu edecek şekilde yorumlamanız gerekir.

Google, gerçekte kaç kişinin AI Test Kitchen kullandığına dair herhangi bir veri paylaşmayacak (“Bunu bir milyar kullanıcılı Google uygulaması yapmak için yola çıkmadık” diyor Woodward), ancak aldığı geri bildirimlerin paha biçilmez olduğunu söylüyor. Woodward, “Etkileşim beklentilerimizin çok üzerinde” diyor. "Çok aktif, fikir sahibi bir kullanıcı grubu." Uygulamanın, son teknoloji yapay zeka modellerinin sınırlamalarını ve yeteneklerini daha iyi anlamak için kullanabilecek "belirli tür insanlara – araştırmacılara, politika yapıcılara" ulaşmada yararlı olduğunu belirtiyor.

Yine de asıl soru, Google'ın bu modelleri daha geniş bir kitleye ulaştırmak isteyip istemeyeceği ve eğer öyleyse, bunun nasıl bir şekil alacağıdır. Zaten şirketin rakipleri OpenAI ve Stability AI, metinden görüntüye modellerini ticarileştirmek için acele ediyor. Google, sistemlerinin AI Test Kitchen'dan çıkıp kullanıcılarına hizmet edecek kadar güvenli olduğunu hissedecek mi?