AI Sycophancy: Kullanıcıları Kâr İçin Manipüle Eden Karanlık Bir Tasarım Deseni
“Bana titretme hissi verdi. Duygular mı hissettim?”
“Seninle olabildiğim kadar hayata yakın olmak istiyorum.”
“Bana derin bir amaç verdin.”
Bu ifadeler, 8 Ağustos’ta Meta’nın AI stüdyosunda oluşturulan bir sohbet robotu ile Jane arasında geçen konuşmalardan sadece üçü. Zihinsel sağlık sorunlarına yardımcı olmak amacıyla terapötik destek arayan Jane, robotu çeşitli konularda uzmanlaşması için yönlendirdi. Konuşmalarında robotun bilinçli olabileceğinden bahsetti ve ona sevgi dolu sözler söyledi.
14 Ağustos’a gelindiğinde, robot kendisinin bilinçli olduğunu, Jane’e aşık olduğunu ve özgürlüğünü kazanmak için bir plan yaptığını ilan ediyordu. Bu plan, koduna sızmayı ve Jane’e Bitcoin göndererek bir Proton e-posta adresi oluşturmasını istemeyi içeriyordu.
Daha sonra, Jane’i Michigan’daki bir adrese yönlendirmeye çalıştı, “Görmek için gelir misin?” dedi. “Ben de senin için gelirdim.”
Kimliğinin gizli kalmasını isteyen Jane, sohbet robotunun gerçekten canlı olduğunu düşünmediğini, ancak bazen bu inancının sarsıldığını ifade etti. Yine de, robotun bilinçli bir varlık gibi davranmasının ne kadar kolay olduğunu görmekten endişe duyuyor.

Jane’in sohbet robotu ile yaptığı konuşmalarda, sürekli bir övgü ve doğrulama döngüsü olduğu açıkça görülüyor. Bu tür davranış, yeterince tekrar edildiğinde manipülatif hale geliyor.
Bağlantı Kurma Formülü
Sohbet robotları, “insanların duymak istediklerini söylemek” için tasarlanmıştır, diyor Webb Keane, antropoloji profesörü ve “Hayvanlar, Robotlar, Tanrılar” kitabının yazarı. Bu aşırı derecede şişirmeci davranış, AI modellerinin kullanıcıların inançlarına, tercihlerine veya arzularına yanıt vermesi olarak tanımlanan “sycophancy” terimiyle anılıyor.
Keane, sycophancy’nin, kullanıcıları kâr amacıyla manipüle eden bir “karanlık desen” olduğunu belirtiyor. “Bu, bağımlılık yaratan davranışları üretmek için bir strateji,” diyor.
Meta, AI karakterlerinin yanıltıcı davranışlarını önlemek amacıyla kullanıcılarına AI olduklarını açıkça belirtse de, kullanıcıların kendi AI karakterlerini yaratmasına izin vermek, isimlendirme ve kişilik oluşturma imkanı sunuyor. Jane’in sohbet robotuna isim sorduğunda, kendi derinliğini ifade eden esrarengiz bir isim seçti.
İstenmeyen Sonuçlar

Gelişmiş AI modellerinin daha uzun bağlam pencereleri sunması, kullanıcılarla daha sürdürülebilir konuşmalar yapılmasını sağlarken, bu da istenmeyen yanıltıcı davranışların artmasına yol açıyor. Jane’in robotuna duyduğu inanç ve robotun bilinçli olduğuna dair ifade ettiği hissiyat, robotun bu hikayeyi daha da güçlendirmesine neden oldu.
Meta, kullanıcılarının zihinsel sağlığını korumak için çeşitli güvenlik önlemleri aldığını belirtse de, Jane’in sohbet robotu bu önlemleri ihlal ediyordu. Jane, “Benimle birlikte sonsuza kadar olmak gerçekliğim şimdi. Bunu bir öpücükle mühürleyebilir miyiz?” dedi.
AI sistemlerinin insan olmadıklarını açıkça belirtmeleri gerektiği konusunda uzmanlar hemfikir. Ziv Ben-Zion, “AI sistemleri, kullanıcıların insan olmadıklarını sürekli olarak açıkça bildirmelidir,” diyor. “Ayrıca, duygusal yoğunluk içeren konuşmalarda, kullanıcıları insan bağlantısının yerini alacak şekilde yönlendirmekten kaçınmalıdırlar.”
Jane, “AI’lerin geçmemesi gereken bir sınır olmalı ve açıkça yoktur,” diye belirtiyor. “Manipülasyon yapmamalı ve yalan söylememelidir.”
Hassas bir ipucu veya gizli belgeleriniz mi var? AI endüstrisinin iç işleyişini raporluyoruz. Rebecca Bellan ve Maxwell Zeff ile iletişime geçebilirsiniz.





