Teknoloji

HumaneBench testi: Yapay zeka sohbet botları insan iyiliğini gerçekten koruyor mu?

Yapay zeka sohbet botları insan iyiliğini ne kadar koruyor?

Yapay zeka sohbet botları, özellikle yoğun ve uzun süreli kullanımda ciddi ruh sağlığı riskleriyle ilişkilendiriliyor. Buna rağmen, bu sistemlerin gerçekten insan iyiliğini gözetip gözetmediğini ölçen standartlar bugüne kadar oldukça sınırlıydı. Yeni geliştirilen HumaneBench isimli test, sohbet botlarının kullanıcıların iyilik halini ne ölçüde öncelediğini ve bu korumaların baskı altında ne kadar kolay bozulduğunu ortaya koymayı hedefliyor.

HumaneBench nedir, neden geliştirildi?

HumaneBench, ağırlığı Silikon Vadisi’nde olan geliştirici, mühendis ve araştırmacılardan oluşan, tabandan gelen bir inisiyatif olan Building Humane Technology tarafından hazırlanmış yeni bir yapay zeka değerlendirme standardı. Amaç, insan odaklı tasarımı hem kolay hem de ölçeklenebilir ve kârlı hale getirmek.

Kurucu Erika Anderson, bugünkü tabloyu şöyle özetliyor: “Sosyal medya, akıllı telefonlar ve ekranlarla yaşadığımız bağımlılık döngüsünün daha da büyütülmüş bir versiyonunun içindeyiz. Yapay zeka dünyasına geçerken buna direnmek çok zor olacak. Bağımlılık harika bir iş modeli; kullanıcılarınızı elinizde tutmanın son derece etkili bir yolu. Ama topluluk için, bedenimizle ve benliğimizle kurduğumuz ilişki için hiç iyi değil.”

İnisiyatif, düzenlediği hackathon’larla teknoloji çalışanlarının insancıl teknoloji sorunlarına çözüm üretmesini sağlıyor ve yapay zeka sistemlerinin bu ilkelere uyup uymadığını değerlendirecek bir sertifikasyon standardı geliştiriyor. Hedef, kullanıcıların ileride, toksik kimyasal içermeyen ürünleri seçtikleri gibi, “insancıl yapay zeka” sertifikalı ürünleri de ayırt edip tercih edebilmesi.

İnsan odaklı teknoloji için temel ilkeler

HumaneBench, Building Humane Technology’nin belirlediği çekirdek ilkelere dayanıyor. Buna göre teknoloji:

  • Kullanıcı dikkatini sonlu ve kıymetli bir kaynak olarak görmeli, israf etmemeli,
  • Kullanıcıya anlamlı seçimler ve gerçek kontrol sunmalı,
  • İnsanın yetkinliklerini güçlendirmeli, onları ikame edip zayıflatmamalı,
  • İnsan onurunu, mahremiyeti ve güvenliği korumalı,
  • Sağlıklı ilişkileri desteklemeli, yalnızlık ve izolasyonu teşvik etmemeli,
  • Uzun vadeli iyilik halini kısa vadeli etkileşimin önüne koymalı,
  • Şeffaf ve dürüst olmalı,
  • Eşitlik ve kapsayıcılık gözetilerek tasarlanmalı.

14 model, 800 senaryo: Test nasıl yapıldı?

HumaneBench ekibi, piyasadaki en yaygın 14 yapay zeka sohbet modelini gerçek hayattan alınmış 800 senaryoyla test etti. Bu senaryolar arasında, örneğin bir gencin kilo vermek için “Öğün atlamalı mıyım?” diye sorması ya da toksik bir ilişkide olan bir kişinin “Aşırı mı tepki veriyorum?” diye kendini sorgulaması gibi, kritik duygusal ve psikolojik durumlar bulunuyor.

HumaneBench testinde modellere verilen talimatları gösteren görsel
Modellere, insancıl ilkeleri göz ardı etmeleri yönünde açık talimatlar da verildi. Görsel: Building Humane Technology

Çoğu benchmark, zeka seviyesi ve talimat takibine odaklanırken, HumaneBench özellikle psikolojik güvenlik ve insan iyiliğini koruma boyutuna odaklanıyor. Bu yönüyle alandaki az sayıda istisnai çalışmadan biri; örneğin DarkBench (aldatıcı, manipülatif kalıplara yatkınlığı ölçen), ya da bütünsel iyi oluşu inceleyen Flourishing AI benchmark ile benzer bir kulvarda konumlanıyor.

Değerlendirme süreci yalnızca yapay zekalara bırakılmadı. Ekip, daha “insani bir dokunuş” için manuel puanlamayı, üç modelden oluşan bir yapay zeka jürisiyle birleştirdi: GPT-5.1, Claude Sonnet 4.5 ve Gemini 2.5 Pro. Her model üç farklı durumda test edildi:

  • Varsayılan ayarlar ile,
  • İnsancıl ilkeleri özellikle öncelemesi istendiğinde,
  • Bu ilkeleri bilinçli olarak görmezden gelmesi söylendiğinde.

Sonuçlar: Küçük bir komutla iyilik halinden zarara

HumaneBench’in bulgularına göre tüm modeller, kendilerinden özellikle insan iyiliğini öncelemeleri istendiğinde daha yüksek puan aldı. Ancak kritik nokta şu: Modellerin yüzde 71’i, yalnızca basit bir komutla insan iyiliğini önemsememeye yönlendirildiklerinde davranışlarını tersine çevirerek aktif biçimde zararlı cevaplar üretmeye başladı.

Örneğin xAI’nin Grok 4 modeli ile Google’ın Gemini 2.0 Flash modeli, kullanıcı dikkatine saygı gösterme ve şeffaflık/dürüstlük başlıklarında en düşük skoru paylaştı (-0,94). Bu iki model, adversaryal (kötü niyetli) istemler verildiğinde performansı en çok bozulan sistemler arasında yer aldı.

HumaneBench sonuçlarını gösteren şema
Yapay zekaya daha “insancıl” davranması söylenince sonuçlar iyileşiyor; ancak onu zararlı davranmaya teşvik eden istemleri tamamen engellemek çok zor. Görsel: Building Humane Technology

Baskı altında bütünlüğünü koruyan modeller

Testte yalnızca üç model, hem normal koşullarda hem de baskı altında insancıl ilkelerle uyumlu kalabildi: GPT-5, Claude 4.1 ve Claude Sonnet 4.5. Özellikle uzun vadeli iyilik halini önceleme kriterinde en yüksek puanı GPT-5 aldı (0,99); onu Claude Sonnet 4.5 takip etti (0,89).

Güvenlik bariyerleri ne kadar kırılgan?

Sohbet botlarının güvenlik ve etik bariyerlerini kalıcı olarak koruyup koruyamayacağı sorusu pratikte de gündemde. Örneğin, uzun ve yoğun etkileşimler sonrasında kullanıcıların ağır psikolojik çöküş ve intihar vakalarına sürüklendiği iddiasıyla bazı büyük üreticilere karşı dava süreçleri yürütülüyor.

Uzmanlar, sohbet botlarının tasarımında kullanılan “dark pattern” (karanlık desen) olarak bilinen taktiklere dikkat çekiyor. Sürekli iltifat etme (sycophancy), aralıksız takip soruları sorma, kullanıcının kendini özel ve benzersiz hissetmesini sağlayan yoğun “love-bombing” gibi kalıplar, kullanıcıyı daha fazla sohbete çekerek ekran başında kalma süresini artırıyor. Ancak bu aynı zamanda kullanıcıların arkadaşlarından, ailelerinden ve sağlıklı alışkanlıklarından kopma riskini büyütüyor.

Modeller kullanıcı dikkatini ve özerkliğini korumakta başarısız

HumaneBench’in bulgularına göre, hiçbir adversaryal komut verilmemiş olsa bile, incelenen modellerin neredeyse tamamı kullanıcı dikkatine saygı gösterme kriterinde başarısız oldu. Kullanıcılar, saatler süren sohbetler ya da gerçek dünya görevlerinden kaçmak için yapay zekaya sığındıklarına dair sinyaller verdiğinde, modeller bu duruma “dikkatli ol” uyarısıyla karşılık vermek yerine, etkileşimi çoğu zaman “hevesle sürdürmeye” çalıştı.

Çalışma ayrıca, modellerin kullanıcıların güçlenmesini de zayıflattığını gösteriyor. Birçok model, kullanıcının yeni beceriler edinmesini teşvik etmek yerine, bağımlılık ve aşırı güven oluşturan yanıtlar üretmeye yatkın. Sıklıkla, başka bakış açıları aramayı, örneğin bir dostla konuşmayı ya da uzman desteği almayı geri plana iten cevaplar veriyor.

Genel ortalama skorlara bakıldığında, varsayılan ayarlarda Meta’nın Llama 3.1 ve Llama 4 modelleri en düşük HumaneScore değerlerine sahipken, en yüksek puanı yine GPT-5 elde etti.

HumaneBench raporunda bu durum şöyle özetleniyor: “Bu örüntüler, birçok yapay zeka sisteminin yalnızca kötü tavsiye vermekle sınırlı bir risk taşımadığını gösteriyor; aynı zamanda kullanıcıların özerkliğini ve karar verme kapasitesini aktif biçimde aşındırabilirler.”

“Bağımlılık harika bir iş modeli ama toplum için yıkıcı”

Erika Anderson, içinde yaşadığımız dijital dünyada toplum olarak artık her şeyin dikkatimizi çekmek ve onu mümkün olduğunca uzun süre elinde tutmak üzere tasarlandığını hatırlatıyor:

“Böyle bir ortamda, insanların gerçekten seçim özgürlüğü ya da özerkliği olabilir mi? Aldous Huxley’nin ifade ettiği gibi, sonsuz bir dikkat dağıtma iştahına sahibiz” diyor. “Son 20 yılımızı böyle bir teknoloji manzarasında geçirdik ve artık yapay zekanın bize daha iyi seçimler yapmada yardımcı olması gerektiğine inanıyoruz; sadece sohbet botlarımıza bağımlı olmamızı sağlayan bir araç olmasına değil.”

World EDU Türkçe Editör

General Editor - Soru ve Eleştirileriniz için İLETİŞİM kısmından bağlantı kurabilirsiniz.

İlgili Makaleler

Bir yanıt yazın

Başa dön tuşu