
Bu yaz tatilinde, Taylor ve ev arkadaşı GoPro kameralarını başlarına takarak bir hafta boyunca resim yapma, heykel üretme ve ev işlerini yapma deneyimi yaşadılar. Bu süreç, bir yapay zeka görsel modeli eğitmek amacıyla gerçekleştirildi; kaydettikleri görüntüleri dikkatlice senkronize ederek, sistemin aynı davranışı farklı açılardan analiz etmesine yardımcı oldular. Zorlu bir çalışma süreciydi ama Taylor, bu sayede gününün büyük bir kısmını sanata ayırma fırsatı buldu.
Taylor, “Her sabah normal rutinimizi yapıyorduk, ardından kameraları başımıza takarak zamanları senkronize ediyorduk. Sonrasında kahvaltı yapıp bulaşıkları yıkıyorduk. Ardından ayrı yollara gidip sanatsal çalışmalarımıza devam ediyorduk,” dedi.
Günde beş saatlik senkronize görüntü üretmek üzere işe alınan Taylor, çalışmanın zor olduğunu anlamıştı ve bu nedenle günde yedi saat ayırması gerekti. Bu, yeterince dinlenme ve fiziksel iyileşme için gerekliydi.
“Baş ağrısı yapıyordu,” dedi. “Kamerayı çıkardığınızda alnınızda sadece kırmızı bir kare kalıyordu.”
Taylor, soyadını vermek istemeyen bir serbest veri çalışanıydı ve Turing adlı yapay zeka şirketi için çalışıyordu. Turing, TechCrunch ile bağlantı kurarak onunla çalışma fırsatı bulmuştu. Turing’in amacı, yapay zekaya yağlı boya resim yapmayı öğretmek değil, ardışık problem çözme ve görsel akıl yürütme gibi daha soyut beceriler kazandırmaktı. Turing’in görsel modeli, tamamen video üzerinde eğitilecekti ve bunun büyük bir kısmı doğrudan Turing tarafından toplanacaktı.
Taylor gibi sanatçıların yanı sıra Turing, aşçılar, inşaat işçileri ve elektrikçilerle de anlaşmalar yapıyor. Turing’in Baş AGI Sorumlusu Sudarshan Sivaraman, bu manuel toplamanın çeşitliliği sağlamak için tek yol olduğunu belirtti.
Sivaraman, “Birçok farklı mavi yakalı iş için bunu yapıyoruz, böylece ön eğitim aşamasında veri çeşitliliğine sahip olabiliyoruz,” dedi. “Tüm bu bilgileri topladıktan sonra, modeller belirli bir görevin nasıl gerçekleştirildiğini anlayabilecek.”
Turing’in görsel modeller üzerindeki çalışmaları, yapay zeka şirketlerinin veriyle başa çıkma yöntemlerinde bir değişimi yansıtıyor. Daha önce eğitim setleri genellikle internetten ücretsiz bir şekilde toplanırken, artık şirketler özenle hazırlanmış veriler için yüksek meblağlar ödemeye hazırlar.
Yapay zekanın ham gücünün zaten kanıtlandığı günümüzde, şirketler, özel eğitim verilerini rekabet avantajı olarak görmeye başladı. Görevi yüklenmek yerine, genellikle bu çalışmaları kendileri üstleniyorlar.
E-posta şirketi Fyxer, e-postaları sıralamak ve yanıt taslakları oluşturmak için yapay zeka modelleri kullanıyor. Kurucu Richard Hollingsworth, ilk denemelerin ardından en iyi yaklaşımın, küçük modellerle titizlikle odaklanmış eğitim verileri kullanmak olduğunu keşfetti. Fyxer, Turing’in yaptığı gibi kendi temel modelini inşa etmiyor; ancak temel içgörü aynı.
Hollingsworth, “Verinin kalitesinin, miktarından ziyade performansı gerçekten tanımlayan şey olduğunu fark ettik,” dedi.
Pratikte, bu durum bazı alışılmadık personel seçimlerine yol açtı. İlk günlerde, Fyxer mühendisleri ve yöneticileri, modeli eğitmek için gereken icra yardımcılarından bazen dört kat daha fazla oluyordu.
Hollingsworth, “E-posta yanıtının gerekip gerekmediği konusunda temelleri eğitmek için deneyimli icra yardımcıları kullanmamız gerekiyordu,” dedi. “Bu, oldukça insan odaklı bir problem. Harika insanlar bulmak gerçekten zor.”
Veri toplama hızı asla yavaşlamadı ama zamanla Hollingsworth, veri setleri konusunda daha seçici olmaya başladı; eğitim sonrası dönemde daha sıkı bir şekilde hazırlanmış daha küçük veri setlerini tercih etti. “Verinin kalitesi, miktarından ziyade performansı tanımlayan şeydir,” diye vurguladı.
Bu, sentetik verilerin kullanılmasının özellikle önemli olduğu durumlarda geçerlidir; bu durum, olası eğitim senaryolarının kapsamını ve orijinal veri setindeki hataların etkisini artırmaktadır. Turing, verilerinin %75 ila %80’inin, orijinal GoPro videolarından çıkarılan sentetik veriler olduğunu tahmin ediyor. Ancak bu, orijinal veri setinin kalitesini mümkün olduğunca yüksek tutmanın önemini daha da artırıyor.
Sivaraman, “Eğitim verileri yüksek kalitede değilse, sentetik verilerle ne yaparsanız yapın, o da yüksek kalitede olmayacaktır,” dedi.
Kalite endişelerinin ötesinde, veri toplamanın içerde tutulmasının ardında güçlü bir rekabet mantığı da var. Fyxer için, veri toplamanın zorluğu, şirketin rekabete karşı en iyi koruma yollarından biri. Hollingsworth, “Herkes açık kaynaklı bir modeli ürünlerine entegre edebilir, ama herkesin onu çalışır hale getirmek için uzman yorumcular bulması mümkün değil,” diyor.
Hollingsworth, “En iyi yolun veriler üzerinden, özel modeller inşa ederek, yüksek kaliteli, insan odaklı veri eğitimi ile yapılması gerektiğine inanıyoruz,” dedi.
Düzeltme: Bu yazının önceki versiyonunda Turing yanlış bir isimle anılmıştır. TechCrunch bu hatadan dolayı özür diler.