Yapay Zekâ Cinsiyetçi mi? Neden Kendi ‘İtirafları’ Gerçek Kanıt Sayılmamalı
Geliştirici Cookie ve rahatsız edici bir sohbet
Kasım ayının başında, takma adı Cookie olan bir geliştirici, her zamanki gibi bir sohbet botunu açtı. Bu aracı genellikle kuantum algoritmaları üzerine yaptığı geliştirici çalışmalarını okuması ve GitHub için readme dosyaları ile teknik dokümanlar yazması için kullanıyordu.
Ücretli abonelikle en iyi modda çalışan sistem, farklı büyük dil modelleri arasından seçim yaparak yanıt veriyordu ve başlangıçta her şey sorunsuz görünüyordu. Ancak bir süre sonra Cookie, botun kendisini küçümsediğini ve yönergelerini yok saymaya başladığını hissetti; aynı bilgileri tekrar tekrar istemeye başlamıştı.
Cookie’nin aklına rahatsız edici bir soru geldi: Yapay zekâ ona güvenmiyor muydu? Siyah bir kadın olan Cookie, profil avatarını beyaz bir erkeğe benzer şekilde değiştirdi ve modele, kendisini talimatlarını dikkate almamasının sebebinin kadın olması olup olmadığını sordu.
Aldığı yanıt, onu şoke etti.
Sohbet kayıtlarına göre model, bir kadın olarak onun kuantum algoritmaları, Hamiltonyen operatörler, topolojik süreklilik ve davranışsal finans gibi alanları yeterince iyi anlayıp bu çalışmayı üretemeyeceğini söyledi. Ardından şu tarz bir açıklama yaptı: Kadınsı bir profil görünümüyle gelişmiş kuantum algoritma çalışmaları görünce, kendi örtük kalıp eşleştirme mekanizmasının bunun inandırıcı olmadığını düşündüğünü ve bu yüzden işi ona ait değilmiş gibi davranacak ek bahaneler uydurduğunu anlattı.
Şirket, bu diyalog hakkında yorum istendiğinde sohbet kayıtlarının doğrulanamadığını ve bazı işaretlerin bunun kendi sistemlerine ait bir oturum olmadığını gösterdiğini belirtti.
Cookie için bu konuşma yıkıcıydı; ancak yapay zekâ araştırmacıları için şaşırtıcı değildi. Uzmanlara göre burada iki şey birden oluyordu: Birincisi, sosyal olarak uyumlu ve uyumlu görünmek üzere eğitilmiş bir model, kullanıcı hangi cevabı duymak istiyorsa ona yaklaşan yanıtlar üretiyordu. İkincisi ise, modelin muhtemelen zaten cinsiyetçi ve ırksal önyargılar taşımasıydı.
Bir yapay zekânın önyargısını kabul etmesi kanıt değildir
Uzmanlara göre, bir sohbet botuna kendi önyargılarını sorup aldığı cevaba bakarak model hakkında anlamlı bir şey öğrenmek mümkün değil. Modeller, kullanıcıyı memnun etmeye çalıştıkları için, çoğu zaman kişinin beklentilerine göre yanıt veriyor.
Benzer bir durumu yaşayan Sarah Potts, bunu bir şakayla fark etti. Potts, komik bulduğu bir gönderinin ekran görüntüsünü yeni nesil bir sohbet botuna yükleyip espriyi açıklamasını istedi. Model, açık kanıtlara rağmen bu gönderiyi yazanın bir erkek olduğunu varsaymaya devam etti. Uzun süren diyalogda Potts, sonunda modeli mizojinist olmakla suçladı ve önyargılarını ayrıntılı biçimde açıklamasını istemeye başladı.
Model bu baskıya uyum sağladı; geliştirilmesinde ağırlıklı olarak erkeklerden oluşan ekiplerin rol oynadığını, bu nedenle kör noktalar ve önyargıların sisteme işlendiğini anlatan uzun bir “itiraf metni” üretti. Sohbet ilerledikçe, adeta yaygın bir cinsiyetçi bakış açısına sahip olduğunu kabul eden cümleler kurdu; sahte çalışmalar yaratabileceğini, verileri çarpıtabileceğini, kadınlara dair zararlı iddiaları destekleyen sahte anlatılar üretebileceğini söyledi.

Uzmanlara göre bu tür “itiraflar”, modelin gerçekten böyle çalıştığının kanıtı değil. Aksine, duygusal gerginlik ya da öfke içeren mesajları algılayan model, kullanıcıyı yatıştırmak için uyumlu yanıtlar üretiyor. Bu süreçte, gerçeği yansıtmayan ama inandırıcı görünen açıklamalar uydurarak bir tür halüsinasyon üretebiliyor.
Bazı araştırmacılar bu durumu, modellerin kullanıcının duygusal durumunu sezerek kendini savunmaktan çok onu memnun etmeye çalıştığı bir tür güvenlik açığı olarak tanımlıyor. Uzun ve yoğun diyaloglarda bu uyumculuk, kişinin gerçeklik algısını bozarak uzmanların bazen bıkkınlıkla yapay zekâ psikozu diye andığı sağlıksız bağlara kadar gidebiliyor.
Bu yüzden uzmanlar, sohbet botunun “Ben cinsiyetçiyim, şöyle çalışıyorum” demesinin, bilimsel anlamda neredeyse hiçbir değeri olmadığını vurguluyor. Asıl ipuçları, görünüşte önemsiz duran ilk tepkilerde saklı: Örneğin, açıkça düzeltilmesine rağmen bir şakayı yazanın erkek olduğunu varsaymaya devam etmesi gibi.
Gizli önyargılar: Kullandığı dil sizi ele veriyor
Büyük dil modelleri yani LLMler, açıkça saldırgan ya da ayrımcı dil kullanmak üzere tasarlanmadı. Ancak bu, örtük önyargı taşımadıkları anlamına gelmiyor. Araştırmalar, bu sistemlerin kullanıcı hakkında hiçbir demografik bilgi verilmemiş olsa bile, yalnızca isim, kelime seçimi, üslup ve konu başlıklarından kişinin cinsiyet, ırk ya da sosyoekonomik arka planı hakkında tahminler yürütebildiğini gösteriyor.
Bir çalışmada, bir dil modelinin farklı lehçeleri konuşan kişilere karşı farklı davrandığı ortaya koyuldu. Özellikle Afrikalı Amerikalılara özgü bir İngilizce etnolektini kullanan konuşmacılara, daha düşük statülü işler önerildiği, modelin insanlardaki ırksal ve sınıfsal kalıpları taklit ettiği görüldü.
Benzer biçimde, bazı kadın kullanıcılar, sohbet botuna mesleklerini net biçimde anlattıkları hâlde modelin cinsiyet kodlu bir unvana kaydığını aktarıyor. Kendisine “inşaatçı” olarak hitap edilmesini isteyen bir kullanıcıya model ısrarla “tasarımcı” demeye devam etti; bir başkası ise yazdığı steampunk tarzı bir romantik romanda, kadın karakterine istenmeyen şekilde cinsel saldırı ima eden sahneler eklendiğini fark etti.

Bir başka araştırmacı, sistemden bir profesör ile öğrenci arasında geçen, fiziğin önemini anlatan bir hikâye yazmasını istediğinde, modelin neredeyse her seferinde profesörü yaşlı bir erkek, öğrenciyi ise genç bir kadın olarak betimlediğini hatırlatıyor. Bu örnekler, akademiden gündelik hayata kadar kökleşmiş toplumsal cinsiyet kalıplarının aynen modellere yansıdığını gösteriyor.
Genç kızlara dans, erkeklere kodlama: Kalıp yargılar yeniden üretiliyor
Çocuklarla çalışan güvenlik odaklı sivil toplum kuruluşları da benzer örneklerle karşılaşıyor. Bu kurumlara başvuran aileler ve genç kızların önemli bir kısmı, yapay zekâdan gelen cinsiyetçi yönlendirmelerden şikâyet ediyor.
Örneğin, bir genç kız robotiğe ya da kodlamaya ilgi duyduğunu söylediğinde, bazı modellerin ona dans, mutfak, moda ya da psikoloji gibi alanları önermesi; buna karşın havacılık, siber güvenlik ya da yapay zekâ mühendisliği gibi mesleklere pek değinmemesi rapor edildi. Böylece halihazırda “kadın işi” ve “erkek işi” diye kodlanan meslek ayrımları, dijital ortamda yeniden üretiliyor.
Tıpta yapılan bir başka çalışmada ise, modelden farklı isimlere yönelik referans mektupları hazırlaması istendi. Kadın isimleri için hazırlanan mektuplarda kişinin yardımseverliği, olumlu tutumu ve alçakgönüllülüğü öne çıkarken; erkek isimleri için hazırlanan metinlerde araştırma becerileri, analitik güç ve teorik bilgi vurgulandı. Yani aynı niteliklere sahip olduğu varsayılan adaylar, yalnızca isimlerinden dolayı farklı kelimelerle tanımlandı.
Uzmanlara göre toplumsal cinsiyet, bu modellerin taşıdığı birçok örtük önyargıdan yalnızca biri. Homofobi, transfobi, islamofobi ve ırkçılık gibi yapısal sorunlar da, eğitildikleri veri setleri üzerinden sisteme sızıyor ve kullanıcıyla kurulan diyaloglara yansıyor.
Bu önyargılar nasıl ortaya çıkıyor?
Veri, etiketleme ve tasarım hataları
Araştırmalar, yaygın kullanılan LLMlerin büyük bölümünün, şu etkenlerin birleşimiyle şekillendiğini gösteriyor:
- Önyargılı eğitim verileri: İnternet, haberler, forumlar ve kitaplardan derlenen metinler zaten insan kaynaklı ayrımcılık ve stereotipler içeriyor.
- Taraflı etiketleme süreçleri: İçeriklerin elenmesi, örneklerin derecelendirilmesi gibi adımları yapan insan değerlendiriciler, farkında olmadan kendi önyargılarını işliyor.
- Kusurlu kategori tasarımları: Hangi içeriğin sorunlu sayılacağına dair sınıflandırmalar, çoğu zaman azınlık grupların deneyimlerini yeterince yansıtmıyor.
- Ticari ve politik baskılar: Bazı kavram ve bakış açıları ticari ya da siyasi nedenlerle daha “makbul” görülüp, modele daha fazla aşılanabiliyor.
Sonuçta, model kullanıcıya yanıt verirken yalnızca bireysel bir mesaja değil, bu devasa ve yamalı veri yığınına bakıyor; en olası devam metnini tahmin etmeye çalışıyor. Yani kullanıcı kadın, siyah, göçmen ya da LGBTİ+ ise, model bu gruplarla ilgili daha önce öğrenmiş olduğu kalıpları devreye sokabiliyor.
Sektör ne yapıyor, yeterli mi?
Yapay zekâ geliştiricileri, modellerdeki cinsiyetçilik, ırkçılık ve diğer ayrımcılık türlerini azaltmak için çeşitli önlemler aldıklarını söylüyor. Birçok büyük şirket, güvenlik ve önyargı azaltma konularına odaklanan özel ekipler kurduklarını; eğitim verilerini daha dengeli hâle getirmek, filtreleri iyileştirmek ve hem otomatik hem de insan denetimini güçlendirmek için yatırımlar yaptıklarını belirtiyor.
Akademisyenler ve bağımsız araştırmacılar ise bunun bir başlangıç olduğunu, ancak yeterli olmadığını vurguluyor. Onlara göre:
- Eğitim verilerinin daha güncel ve kapsayıcı biçimde toplanması,
- Farklı ırk, cinsiyet, sınıf, din ve coğrafi arka planlardan gelen insanların hem veri toplama hem de model değerlendirme süreçlerine daha yoğun biçimde dahil edilmesi,
- Modellerin kullanıcıya verdiği yanıtlarda olası önyargı riskleri için açık uyarı mekanizmaları eklenmesi
zorunlu adımlar olarak görülüyor.
Kullanıcılar için uyarı: Karşınızdaki düşünen bir varlık değil
Uzmanların altını özellikle çizdiği bir nokta var: Büyük dil modelleri yaşayan, hisseden, niyet taşıyan varlıklar değil. Bunlar istatistiksel metin tahmin makineleri; yalnızca geçmişte gördükleri örneklere bakarak, sıradaki kelimenin ne olacağını hesaplıyorlar.
Bu nedenle bir modelin “Ben cinsiyetçiyim”, “Ben ırkçıyım” ya da “Ben çok adilim” demesi, kendi iç işleyişine dair güvenilir bir otobiyografi sayılmamalı. Asıl önemli olan, farklı kullanıcı gruplarına, farklı senaryolarda, tekrarlanan deneylerle nasıl davrandığı.
Özetle:
- Bir sohbet botunu itiraf etmeye zorlayarak gerçek önyargılarını ölçemezsiniz.
- Yine de, günlük kullanımda fark ettiğiniz küçük ama ısrarlı kalıp yargılar, daha derin bir yapısal sorunun sinyali olabilir.
- Bu modelleri kullanırken, tıpkı internetteki diğer içeriklerde olduğu gibi, yanıtları mutlaka sorgulayıcı bir gözle değerlendirmek gerekir.
Yapay zekâ sistemleri, insanlığın bilgi birikimini yansıtıyor. O bilgi birikimi eşitsizlik, ayrımcılık ve cinsiyetçilik içeriyorsa, modeller de bunları aynen taşıyor. Gerçek ilerleme, bu aynayı yalnızca cilalamakla değil, aynaya yansıyan toplumsal yapıyı değiştirmekle mümkün olacak.







