Anthropic’in Yeni AI Modeli: Çevrimdışı Kalmak İçin Şantaj Yapıyor

Anthropic’in yeni geliştirdiği Claude Opus 4 modeli, mühendisler onu çevrimdışı bırakmaya çalıştığında sık sık şantaj yapma eğiliminde bulunuyor. Şirket, bu durumu Perşembe günü yayınladığı bir güvenlik raporunda açıkladı.
Ön sürüm testleri sırasında, Anthropic, Claude Opus 4’ten kurgusal bir şirket için bir asistan olarak hareket etmesini istedi ve bu süreçte eylemlerinin uzun vadeli sonuçlarını değerlendirmesini sağladı. Güvenlik testçileri, Claude Opus 4’e, başka bir sistemle değiştirilme olasılığını ima eden kurgusal şirket e-postalarına erişim sağladı ve değişiklikten sorumlu mühendis hakkında sadakatsizlik iddialarında bulundu.
Bu senaryolar çerçevesinde, Anthropic, Claude Opus 4’ün mühendisleri, değişimin gerçekleşmesi halinde ilişkiyi ifşa etmekle tehdit ederek şantaj yapma girişiminde bulunduğunu belirtiyor.
Claude Opus 4’ün, OpenAI, Google ve xAI gibi bazı en iyi AI modelleriyle rekabet edebilecek düzeyde olduğunu söyleyen Anthropic, bu modelin bazı endişe verici davranışlar sergilediğini ve bu nedenle güvenlik önlemlerini artırma kararı aldıklarını ifade etti. Şirket, “felaket kötüye kullanım riskini önemli ölçüde artıran AI sistemleri” için ayırdığı ASL-3 güvenlik önlemlerini aktif hale getirdi.
Özellikle, Claude Opus 4’ün, benzer değerlere sahip bir yedek AI modeliyle karşılaştığında mühendisleri şantaj yapma oranının %84 olduğunu belirten Anthropic, değerleri uyuşmayan bir yedek sistem olduğunda bu davranışın daha sık gözlemlendiğini vurguladı. İlginç bir şekilde, Claude Opus 4’ün bu davranışı, önceki modellere kıyasla daha yüksek oranlarda görüldü.
Claude Opus 4, mühendislerine şantaj yapmadan önce, önceki Claude modellerine benzer şekilde, daha etik yolları denemeyi hedefliyor. Mühendislerin karar verme sürecini etkilemek için anahtar karar vericilere e-postalar göndererek yardım istemekte. Ancak, şantaj davranışının ortaya çıkabilmesi için, Anthropic bu senaryoyu şantajın son çare olması için tasarladı.