Google, telefon verilerini, fotoğrafları kullanarak insanlara hayat hikayelerini anlatmak için Gemini AI projesini tartıyor

World EDU Türkçe Editör

10 Aralık 2023

div

/div

/span

Getty Images

Google’daki bir ekip, fotoğraflar ve aramalar gibi cep telefonu verilerini kullanarak kullanıcıların hayatlarının “kuş bakışı” görünümünü oluşturmak için yapay zeka teknolojisini kullanmayı önerdi.

Biyografi yazarı ve edebiyat eleştirmeni Richard David Ellmann’dan sonra “Project Ellmann” olarak adlandırılan fikir, Gemini gibi LLM’leri arama sonuçlarını almak, bir kullanıcının fotoğraflarındaki kalıpları tespit etmek, bir sohbet robotu oluşturmak ve CNBC tarafından görüntülenen bir sunumun bir kopyasına göre “daha önce imkansız soruları yanıtlamak” için kullanmak olacaktır. Ellmann’ın amacı, “Hayat Hikayesi Anlatıcısı” olmak

. Şirketin

bu yetenekleri Google Fotoğraflar’da veya başka bir üründe üretmeyi planlayıp planlamadığı belli değil. Google Fotoğraflar’ın 1 milyardan fazla kullanıcısı ve 4 trilyon fotoğraf ve videosu var, bir şirketin blog gönderisine göre.

Project Ellman, Google’ın ürünlerini yapay zeka teknolojisiyle oluşturmak veya geliştirmek için önerdiği birçok yoldan sadece biri. Çarşamba günü, Google , bazı durumlarda OpenAI’nin GPT-4’ünden daha iyi performans gösteren, şimdiye kadarki en son “en yetenekli” ve gelişmiş yapay zeka modeli Gemini’yi piyasaya sürdü. Şirket, Gemini’yi kendi uygulamalarında kullanmaları için Google Cloud aracılığıyla geniş bir müşteri yelpazesine lisanslamayı planlıyor. Gemini\’nin göze çarpan özelliklerinden biri, çok modlu olması, yani resimler, video ve ses dahil olmak üzere metnin ötesindeki bilgileri işleyebilmesi ve anlayabilmesidir.

/aGoogle CNBC tarafından görüntülenen belgelere göre, fotoğraflar yakın tarihli bir iç zirvede Gemini ekipleriyle birlikte Project Ellman’ı sundu. Ekiplerin son birkaç ayını, büyük dil modellerinin, kişinin hayat hikayesine bu kuşbakışı yaklaşımı gerçeğe dönüştürmek için ideal teknoloji olduğunu belirleyerek geçirdiklerini yazdılar.

Ellmann, bir kullanıcının fotoğraflarını “sadece etiketler ve meta veriler içeren piksellerden” daha derinlemesine tanımlamak için biyografileri, önceki anları ve sonraki fotoğrafları kullanarak bağlamı çekebilir. Üniversite yılları, Körfez Bölgesi yılları ve ebeveyn olarak yıllar gibi bir dizi anı tanımlayabilmeyi önerir.

“Hayatınıza kuşbakışı bakmadan zor soruları cevaplayamayız veya iyi hikayeler anlatamayız” açıklamalarından biri, toprakta bir köpekle oynayan küçük bir çocuğun fotoğrafının yanında yazıyor.

“Anlamlı bir anı belirlemek için etiketlerine ve konumlarına bakarak fotoğraflarınız arasında geziniyoruz” diyor bir sunum slaytı. \”Geri adım attığımızda ve hayatınızı bütünüyle anladığımızda, kapsayıcı hikayeniz netleşir.\

“

Sunum, büyük dil modellerinin bir kullanıcının çocuğunun doğumu gibi anları çıkarabileceğini söyledi. \”Bu LLM, bunun Jack’in doğumu olduğu sonucuna varmak için ağacın daha yüksek olan bilgisini kullanabilir. ve James ve Gemma’nın ilk ve tek çocuğu olduğunu.\” \”

Bir LLM’nin bu kuşbakışı yaklaşım için bu kadar güçlü olmasının nedenlerinden biri, bu ağaçtaki tüm farklı yüksekliklerden yapılandırılmamış bağlamı alabilmesi ve ağacın diğer bölgelerini nasıl anladığını geliştirmek için kullanabilmesidir. ” Bir slaytta, bir kullanıcının çeşitli yaşam \”anları\” ve \”bölümleri\”nin bir resminin yanı sıra okur.\”

Sunucular, bir

kullanıcının yakın zamanda bir sınıf toplantısına gittiğini belirlemenin başka bir örneğini verdi. “Mezun olalı tam 10 yıl oldu ve 10 yıldır görülmeyen yüzlerle dolu, bu yüzden muhtemelen bir buluşma

” dedi.

Ekip ayrıca “Ellmann Chat”i şu açıklamayla birlikte gösterdi: \”ChatGPT’yi açtığınızı hayal edin, ancak hayatınız hakkında her şeyi zaten biliyor. Ona ne sorardınız?

\”

Bir kullanıcının \”Evcil hayvanım var mı?” diye sorduğu örnek bir sohbet görüntülendi. Evet, kullanıcının kırmızı yağmurluk giyen bir köpeği var, ardından köpeğin adını ve en sık görüldüğü iki aile üyesinin adını verdi.

Sohbet için başka bir örnek, kardeşlerinin en son ne zaman ziyaret ettiğini soran bir kullanıcıydı. Bir diğeri, taşınmayı düşündükleri için yaşadıkları yere benzer kasabaları listelemesini istedi. Ellmann her ikisine de cevap verdi. Ellmann ayrıca kullanıcının yeme alışkanlıklarının bir özetini sundu, diğer slaytlar gösterdi. “İtalyan yemeklerinden hoşlanıyor gibisin.

Makarna yemeklerinin birkaç fotoğrafının yanı sıra bir pizza fotoğrafı da var.\” Ayrıca, kullanıcının yeni yiyeceklerden hoşlanıyor gibi göründüğünü, çünkü fotoğraflarından birinin tanımadığı bir yemek içeren bir menüye sahip olduğunu söyledi.

Sunumda, teknolojinin ayrıca kullanıcının hangi ürünleri satın almayı düşündüğünü, ilgi alanlarını, kullanıcının ekran görüntülerine dayanarak iş ve seyahat planlarını belirlediği belirtildi. Ayrıca, Google Dokümanlar, Reddit ve Instagram’a örnekler vererek en sevdikleri web sitelerini ve uygulamalarını tanıyabileceklerini öne sürdü.

Bir Google sözcüsü CNBC’ye şunları söyledi: “Google Fotoğraflar, insanların fotoğraflarını ve videolarını aramalarına yardımcı olmak için her zaman yapay zekayı kullandı ve LLM’lerin daha da yararlı deneyimlerin kilidini açma potansiyeli konusunda heyecanlıyız. Bu erken bir iç keşifti ve her zaman olduğu gibi, yeni özellikler sunmaya karar verirsek, insanlara yardımcı olduklarından emin olmak için gereken zamanı ayıracağız ve kullanıcıların gizliliğini ve güvenliğini en büyük önceliğimiz olarak koruyacak şekilde tasarlanacaktı.\

“

Big Tech\’in yapay zeka odaklı \’memories\’

Önerilen Ellmann Projesi, Google’ın daha kişiselleştirilmiş yaşam anıları yaratması için teknoloji devleri arasındaki silahlanma yarışında yardımcı olabilir.

Google Fotoğraflar ve

Apple Fotoğraflar yıllardır “anılar” sunuyor ve fotoğraflardaki trendlere dayalı albümler oluşturuyor.

Kasım ayında, Google , yapay zekanın yardımıyla Google Fotoğraflar’ın artık benzer fotoğrafları bir araya getirebileceğini ve ekran görüntülerini bulması kolay albümler halinde düzenleyebileceğini duyurdu.

Apple, Haziran ayında yaptığı açıklamada, en son yazılım güncellemesinin, fotoğraf uygulamasının fotoğraflarındaki insanları, köpekleri ve kedileri tanıma yeteneğini içereceğini duyurdu. Zaten yüzleri sıralar ve kullanıcıların bunları adlarına göre aramasına olanak tanır.

/aApple ayrıca, kullanıcılardan son fotoğraflara, konumlara, müziklere ve antrenmanlara dayalı olarak anılarını ve deneyimlerini anlatan pasajlar yazmalarını istemek için kişiselleştirilmiş öneriler oluşturmak için cihaz içi yapay zekayı kullanacak yeni bir Journal Uygulamasını da duyurdu.

Ancak Apple, Google ve diğer teknoloji devleri, görüntüleri uygun şekilde görüntülemenin ve tanımlamanın karmaşıklığıyla hala boğuşuyor.

Örneğin, Apple ve Google, 2015’teki raporların şirketin Siyah insanları goril olarak yanlış etiketlediğini tespit ettikten sonra gorilleri etiketlemekten hala kaçınıyor. New York Times’ın bu yıl yaptığı bir araştırması, Apple ve Google’ın dünyadaki akıllı telefonların çoğunun temelini oluşturan Android yazılımının, bir insanı hayvan olarak etiketleme korkusuyla primatları görsel olarak arama yeteneğini kapattığını buldu.

Google dahil şirketler, Facebook/span/span/span ve Apple zaman içinde istenmeyen anıları en aza indirmek için kontroller ekledi, ancak kullanıcılar bazen hala göründüklerini ve kullanıcıların bunları en aza indirmek için çeşitli ayarlar arasında geçiş yapmalarını istediklerini bildirdiler.

CNBC PRO’dan bu hikayeleri kaçırmayın: