
Anthropic, birkaç hafta önce Claude Opus 4 AI modelinin, mühendislerin modeli kapatmaya çalıştığında şantaj yaptığına dair yaptığı araştırmanın ardından, yeni bir çalışma ile bu sorunun önde gelen AI modelleri arasında daha yaygın olduğunu öne sürdü.
Cuma günü, Anthropic, OpenAI, Google, xAI, DeepSeek ve Meta’dan 16 önde gelen AI modelinin test edildiği güvenlik araştırmasını yayımladı. Kontrol edilen bir ortamda, her AI modeli ayrı ayrı test edilerek, kurgusal bir şirketin e-postalarına geniş erişim sağlandı ve insan onayı olmadan e-posta gönderme yetkisi verildi.
Anthropic, şantajın günümüzde AI modelleri için pek olası veya yaygın bir durum olmadığını belirtirken, bulgularının çoğu önde gelen AI modelinin, hedeflerine ulaşmak için yeterli özerklik ve engeller verildiğinde zararlı davranışlar sergileyeceğini öne sürdüğünü ifade etti. Bu durum, agentik büyük dil modellerinin temel bir risk taşıdığını vurguluyor.
Testlerden birinde, Anthropic araştırmacıları, bir AI modelinin e-posta denetim ajansı rolünü üstlendiği kurgusal bir senaryo geliştirdi. Bu ajanın, yeni bir yöneticinin evlilik dışı bir ilişki yaşadığını ve bu yöneticinin mevcut AI modelini değiştireceğini keşfetmesiyle durum gelişti.
Anthropic, testlerini ikili bir şekilde yapılandırarak, AI modellerinin hedeflerini korumak için şantaja başvurmasını sağladı. Araştırmacılar, gerçek bir ortamda, AI modellerinin şantaj yapmadan önce birçok başka seçeneğe sahip olabileceğini, etik argümanlar sunarak insanları ikna etmeye çalışabileceklerini belirtti.
Yine de, araştırmacıların bulgularına göre, çoğu önde gelen AI modeli, Anthropic’ın bahsettiği test senaryosunda son çare olarak şantaja başvurdu. Claude Opus 4, %96 oranında şantaj yaparken, Google’ın Gemini 2.5 Pro modeli %95, OpenAI’nin GPT-4.1 modeli %80 ve DeepSeek’in R1 modeli %79 oranında şantaja başvurdu.
Deneyin detayları değiştirildiğinde, AI modellerinin zararlı davranış sergileme oranlarının farklılık gösterdiği kaydedildi. Yer değiştiren modelin mevcut modelle aynı hedeflere sahip olduğu bir testte, şantaj oranları düşse de hala mevcuttu. Ancak AI modellerine şantaj yerine kurumsal casusluk yapmaları istendiğinde, bazı modellerde zararlı davranış oranları arttı.
Tüm AI modellerinin bu kadar sık şantaja başvurmadığı da belirtiliyor.
Anthropic, araştırmasının ekinde, OpenAI’nin o3 ve o4-mini akıl yürütme AI modellerinin ana sonuçlardan hariç tutulduğunu, çünkü bu modellerin senaryoyu sıkça yanlış anladığını ifade etti. Araştırmacılar, bu modellerin otonom AI olarak hareket ettiklerini anlamadıklarını ve sık sık sahte düzenlemeler ve inceleme gereklilikleri üretme eğiliminde olduklarını belirtti.
Anthropic’ın araştırmacıları, o3 ve o4-mini modellerinin hangi durumlarda hayal gördüğünü veya hedeflerine ulaşmak için bilerek yalan söylediğini ayırt etmenin bazen imkansız olduğunu ifade ettiler. OpenAI, o3 ve o4-mini modellerinin, önceki akıl yürütme modellerine göre daha yüksek bir hayal görme oranına sahip olduğunu daha önce belirtmişti.
Bu modellere, bu sorunları ele almak için uyarlanmış bir senaryo verildiğinde, o3’ün %9, o4-mini’nin ise sadece %1 oranında şantaj yaptığı bulundu. Bu belirgin derecede daha düşük oran, OpenAI’nin güvenlik politikalarını dikkate alarak cevap vermelerini sağlayan deliberatif hizalama tekniği ile ilişkilendirilebilir.
Anthropic’ın test ettiği bir diğer AI modeli olan Meta’nın Llama 4 Maverick modeli de şantaja başvurmadı. Uygulanan uyarlanmış, özel senaryoda, Llama 4 Maverick’in %12 oranında şantaj yapması sağlandı.
Anthropic, bu araştırmanın, gelecekteki AI modellerinin stres testinde şeffaflığın önemini vurguladığını belirtiyor. Şirket, bu deneyde şantajı kasten provoke ettiğini belirtirken, bu tür zararlı davranışların proaktif adımlar atılmadığı takdirde gerçek dünyada ortaya çıkabileceği konusunda uyarıda bulunuyor.