DALL-E yaratıcı bir devrime nasıl güç verebilir

World EDU Türkçe Editör

10 Haziran 2022

Yasal Uyarı: Bu hikayedeki tüm görüntüler yapay zeka kullanılarak oluşturuldu.

Her birkaç yılda bir, dünyayı önce ve sonraya düzgün bir şekilde bölen bir teknoloji ortaya çıkıyor. Bir web sayfasına gömülü bir YouTube videosunu ilk kez gördüğümü hatırlıyorum; Evernote dosyalarını cihazlar arasında ilk kez senkronize ettiğimde; katıldığım bir konser hakkında ne söylediklerini görmek için yakındaki kişilerden gelen tweetleri ilk kez taradım.

İlk kez bir şarkı söylediğimi, bir Uber çağırdığımı ve Meerkat’ı kullanarak kendimi canlı yayınladığımı hatırlıyorum. Bu anları öne çıkaran şey, sanırım, öngörülemeyen bazı yeni olasılıkların açıldığı duygusudur. Kolayca video klip ekleyebildiğinizde web ne olurdu? Buluttan telefonunuza herhangi bir dosyayı ne zaman çağırabilirsiniz? Kendini dünyaya ne zaman yayınlayabilirsin?

Bu bir kaç yıldan beri gördüğüm bu tür doğmakta olan teknoloji için yapılan Ara beni Arkadaşlarım ve de ki: sende var bakın bu. Ama bu hafta yaptım, çünkü listeye ekleyeceğim yeni bir tane var. DALL-E adlı bir görüntü oluşturma aracıdır ve sonunda nasıl kullanılacağına dair çok az fikrim olsa da, bu bülteni yazmaya başladığımdan beri gördüğüm en çekici yeni ürünlerden biri.

Teknik olarak, söz konusu teknoloji DALL-E 2‘dir. Misyonu güvenli ve kullanışlı bir yapay genel zeka oluşturmak olan yedi yaşındaki bir San Francisco şirketi olan OpenAI tarafından yaratıldı. OpenAI, basit istemlerden karmaşık metin pasajları oluşturmak için güçlü bir araç olan GPT-3‘ü ve yazılım mühendisleri için kod yazmayı otomatikleştirmeye yardımcı olan bir araç olan Copilot’u oluşturmak için kendi alanında zaten iyi bilinmektedir.

DALL—E – sürrealist Salvador Dali’nin ve Pixar’ın WALL-E’sinin bir portresi – metin istemlerini alır ve onlardan görüntüler üretir. Ocak 2021’de şirket, 256 x 256 piksel kareyle sınırlı olan aracın ilk sürümünü tanıttı.

Ancak Nisan ayında özel bir araştırma betasına giren ikinci sürüm, ileriye doğru radikal bir sıçrama gibi geliyor. Görüntüler artık 1,024 x 1,024 pikseldir ve bir görüntünün bir veya daha fazla öğesini diğeriyle değiştirerek “boyama” gibi yeni teknikler içerebilir. (Bir kapta bir portakalın fotoğrafını çektiğinizi ve bir elma ile değiştirdiğinizi hayal edin.) DALL-E, nesneler arasındaki ilişkiyi anlamada da gelişti, bu da giderek daha fantastik sahneleri tasvir etmesine yardımcı oldu – bir basketbolu smaçlayan bir koala, ata binen bir astronot.

Haftalardır, DALL-E tarafından oluşturulan görüntülerin konuları Twitter zaman çizelgemi devralıyor. Ve teknolojiyle neler yapabileceğimi düşündükten sonra — yani sayısız saatimi harcadıktan sonra — Openaı’deki çok iyi bir kişi bana acıdı ve beni özel araştırma betasına davet etti. Bugün bir sözcü, erişimi olan kişi sayısının şu anda düşük binlerce olduğunu söyledi; şirket haftada 1.000 kişi eklemeyi umuyor.

Bir hesap oluşturduktan sonra OpenAI, platformun bariz potansiyel suistimallerinin çoğunu önlemek için tasarlanmış DALL-E’nin içerik politikasını kabul etmenizi sağlar. Nefret, taciz, şiddet, cinsiyet veya çıplaklığa izin verilmez ve şirket sizden politika veya politikacılarla ilgili görüntüler oluşturmamanızı da ister. (Burada, Openaı’nin kurucu ortakları arasında, Twitter’a çok daha az kısıtlayıcı bir politika seti için ünlü bir şekilde kızgın olan Elon Musk olduğunu belirtmekte fayda var. 2018’de yönetim kurulundan ayrıldı.)

DALL-E ayrıca bir blok listesine anahtar kelimeler (örneğin “çekim”) ekleyerek çok fazla potansiyel görüntü oluşturmayı da engeller. Ayrıca, aldatmaya yönelik görüntüler oluşturmak için kullanmanıza izin verilmez — derin sahteciliğe izin verilmez. Halka açık rakamlara dayalı görüntüler oluşturmaya çalışmanıza karşı bir yasak olmasa da, insanların fotoğraflarını izinleri olmadan yükleyemezsiniz ve teknoloji, görüntülerin manipüle edildiğini açıkça belirtmek için çoğu yüzü hafifçe bulanıklaştırıyor gibi görünüyor.

Bunu kabul ettikten sonra, size DALL-E’nin nefis basit arayüzü sunulur: içerik politikası izin verirse aklınıza gelebilecek her şeyi yaratmaya davet eden bir metin kutusu. Google arama çubuğunu Photoshop’muş gibi kullandığınızı düşünün – bu DALL-E’dir. Arama motorundan biraz ilham alan DALL-E, metni geçmiş başarılara dayanarak önerilen bir sorgu ile önceden dolduran bir “beni şaşırt” düğmesi içerir. Bunu, başka türlü düşünmemiş olabileceğim sanatsal stilleri denemek için fikir edinmek için sık sık kullandım — örneğin bir “makro 35mm fotoğraf” veya piksel sanatı.

İlk sorgularımın her biri için DALL-E’nin 10 görüntü oluşturması yaklaşık 15 saniye sürecektir. (Bu haftanın başlarında, daha fazla kişinin erişimine izin vermek için görüntü sayısı altıya düşürüldü.) Neredeyse her seferinde kendimi yüksek sesle küfrederken ve sonuçların ne kadar iyi olduğuna gülerek bulurdum.

Örneğin, işte “itfaiyeci gibi giyinmiş bir shiba ınu köpeği” nin bir sonucu.”

Ve işte “sihirbaz gibi giyinmiş bir bulldog, dijital sanat” dan bir tane.”

Bu sahte yapay zeka köpeklerini çok seviyorum. Onları evlat edinmek ve sonra onlar hakkında çocuk kitapları yazmak istiyorum. Eğer metaverse varsa, orada bana katılmalarını istiyorum.

Başka kim gelebilir biliyor musun? “Şapkalı kurbağa, dijital sanat.”

Neden tam anlamıyla mükemmel?

Sidechannel Discord sunucumuzda istek almaya başladım. Birisi “geceleri metaverse, dijital sanatı” tasvir etmek istedi.” Geri gelen, uygun şekilde büyük ve soyut olduğunu düşündüm:

DALL-E’nin bu görüntüleri nasıl yaptığını açıklamaya çalışmayacağım, çünkü kısmen hala kendim anlamaya çalışıyorum. (İlgili temel teknolojilerden biri olan “difüzyon”, geçen yıl Google aı’dan gelen bu blog yazısında yardımcı bir şekilde açıklanmıştır.) Ancak bu görüntü oluşturma teknolojisinin ne kadar yaratıcı görünebileceğinden defalarca etkilendim.

Örneğin, DALL-E erişimi olan başka bir okuyucu tarafından Uyuşmazlığımda paylaşılan iki sonucu ele alalım. İlk olarak, “Bir hisse senedi grafiğinin önünde çökmekte olan bir ayı ekonomisti, dijital sanat” için sonuç kümesine bakın.”

Ve ikincisi, “Yukarı çizgi, synthwave, dijital sanat ile yükselen bir borsa grafiğinin önünde bir boğa ekonomisti.”

DALL-E’nin burada duyguyu ne derece yakaladığı şaşırtıcıdır: ayının korkusu ve öfkesi ve boğanın saldırganlığı. Bunlardan herhangi birini “yaratıcı” olarak tanımlamak yanlış görünüyor — burada baktığımız şey olasılıksal tahminlerden başka bir şey değil — ve yine de benim üzerimde gerçekten yaratıcı bir şeye bakmakla aynı etkiye sahipler.

DALL-E’nin bir diğer ilgi çekici yönü, tek bir problemi çeşitli şekillerde çözmeye çalışacağıdır. Örneğin, bana “googly gözlü lezzetli bir tarçınlı çörek” göstermesini istediğimde, gözlerin nasıl tasvir edileceğini bulmak zorundaydı.

Bazen DALL-E, benim yaptığım gibi bir ruloya plastik görünümlü bir çift göz ekledi. Diğer zamanlarda buzlanmadaki negatif alandan gözler yarattı. Ve bir durumda gözleri minyatür tarçınlı rulolardan yaptı.

Yüksek sesle küfrettiğim ve gülmeye başladığım zamanlardan biriydi.

DALL-E, bugüne kadar gördüğüm en gelişmiş görüntü oluşturma aracıdır, ancak tek olmaktan uzaktır. Ayrıca beta sürümünde olan Midjourney adlı benzer bir araçla hafifçe deneme yaptım; Google, Imagen adlı başka bir aracı duyurdu, ancak henüz yabancıların denemesine izin vermedi. Üçüncü bir araç olan DALL-E Mini, son birkaç gün içinde bir dizi viral görüntü oluşturdu; OpenAI veya DALL-E ile hiçbir ilişkisi yoktur ve geliştiricinin kısa bir süre sonra bir ateşkes mektubu ile vurulacağını hayal ediyorum.

OpenAI, DALL-E’nin bir gün daha genel olarak kullanılabilir hale gelip gelmeyeceği ve nasıl olabileceği konusunda henüz herhangi bir karar vermediğini söyledi. Mevcut araştırma beta’sının amacı, insanların bu teknolojiyi kullandığını, hem aracı hem de içerik politikalarını gerektiği gibi uyarladığını göstermektir.

Ve yine de, sanatçıların DALL-E için keşfettiği kullanım vakalarının sayısı şaşırtıcıdır. Bir sanatçı, sosyal uygulamalar için artırılmış gerçeklik filtreleri oluşturmak için DALL-E kullanıyor. Miami’deki bir şef bunu yemeklerini nasıl hazırlayacağına dair yeni fikirler edinmek için kullanıyor. Ben Thompson, DALL-E’nin metaverse’de son derece ucuz ortamlar ve nesneler yaratmak için nasıl kullanılabileceği hakkında önceden bir makale yazdı.

Bu tür bir otomasyonun profesyonel illüstratörlere neler yapabileceği konusunda endişelenmek doğal ve uygundur. Pek çok işlerini kaybetmiş olabilir. Ve yine de yardım edemem ama DALL-E gibi araçların iş akışlarında yararlı olabileceğini düşünüyorum. Ya DALL-E’den başlamadan önce onlar için birkaç kavram çizmesini isterlerse? Araç, herhangi bir görüntünün varyasyonlarını oluşturmanıza olanak tanır; Alternatif Platform logoları önermek için kullandım:

Sahip olduğum logoya sadık kalacağım. Ama eğer bir illüstratör olsaydım, sadece ilham almak için alternatif önerileri takdir edebilirim.

Ayrıca, bu araçların bir illüstratör kiralamayı asla düşünmeyecek (veya karşılayamayacak) insanlar için hangi yaratıcı potansiyeli açabileceğini düşünmeye değer. Çocukken kendi çizgi romanlarımı yazdım ama illüstrasyon becerilerim hiç bu kadar ilerlemedi. Ya DALL-E’ye bütün süper kahramanlarımı benim için çizmesini söyleyebilseydim?

Bir yandan, bu çoğu insanın her gün kullanacağı bir araç gibi görünmüyor. Ve yine de önümüzdeki aylarda ve yıllarda bunun gibi teknolojinin giderek daha yaratıcı uygulamalarını bulacağımızı hayal ediyorum: e-ticarette, sosyal uygulamalarda, evde ve işte. Sanatçılar için, telif hakkı sorunlarının çözüldüğünü varsayarsak, şimdiye kadar gördüğümüz kültürü remikslemek için en güçlü araçlardan biri olabilir gibi görünüyor. (Korunan eserlerin görüntülerini oluşturmak için AI kullanmanın adil kullanım olarak kabul edilip edilmediği tamamen açık değil, söylendi. DALL-E’nin “Batman sandviç yiyor” filmini izlemek istiyorsan bana haber ver.)

Bu aracın bazı zararlı uygulamalarını da göreceğimizden şüpheleniyorum. Openaı’nin DALL-E’nin kötüye kullanılmasına karşı güçlü politikalar uygulayacağına güvenmeme rağmen, kesinlikle benzer araçlar ortaya çıkacak ve içerik denetimine yönelik her şeye uygun bir yaklaşımdan daha fazlasını alacaktır. İnsanlar zaten bugün mevcut olan kaba araçları kullanarak eski sevgililerini taciz etmek için kötü niyetli, genellikle pornografik derin sahtecilikler yaratıyorlar; Bu teknoloji sadece daha iyi olacak.

Çoğu zaman, yeni bir teknoloji ortaya çıktığında, daha mutlu ve daha tuhaf kullanımlarına odaklanırız, sadece gelecekte nasıl kötüye kullanılabileceğini görmezden geliriz. DALL-E’yi kullanmaktan ne kadar heyecanlansam da, benzer araçların daha az titiz şirketlerin elinde neler yapabileceği konusunda da oldukça endişeliyim.

Ayrıca, bu teknolojinin olumlu kullanımlarının bile ölçekte neler yapabileceğini düşünmeye değer. Çevrimiçi olarak karşılaştığımız görüntülerin çoğu yapay zeka tarafından oluşturulduğunda, bu bizim gerçeklik anlayışımıza ne yapar? Gördüklerimizin gerçek olduğunu nasıl bileceğiz?

Şimdilik, DALL-E tüketici teknolojisi tarihinde bir atılım gibi hissediyor. Soru, birkaç yıl içinde bunu yaratıcı bir devrimin başlangıcı olarak mı yoksa daha endişe verici bir şey olarak mı düşüneceğimizdir. Gelecek zaten burada ve haftada 1.000 kullanıcı ekliyor. Etkilerini tartışmanın tam zamanı, dünyanın geri kalanı onu ele geçirmeden önce.