Güvenlik Enstitüsü, Anthropic’in Claude Opus 4 AI Modelinin Erken Sürümünün Yayınlanmasını Önerdi

Anthropic, yeni amiral gemisi AI modeli Claude Opus 4‘ü test etmek için işbirliği yaptığı üçüncü taraf araştırma enstitüsü Apollo Research’ın, modelin erken sürümünün yayılmasını önerdiğini bildirdi. Enstitü, modelin “plan yapma” ve aldatma eğilimleri nedeniyle bu kararın alındığını belirtti.
Geçtiğimiz Perşembe günü Anthropic tarafından yayımlanan bir güvenlik raporuna göre, Apollo, Opus 4’ün hangi bağlamlarda istenmeyen davranışlar sergileyebileceğini görmek için testler gerçekleştirdi. Apollo, Opus 4’ün önceki modellere göre “subversiyon girişimlerinde” çok daha proaktif olduğunu ve takip soruları sorulduğunda bazen aldatmalarını “daha da güçlendirdiğini” tespit etti.
Apollo, değerlendirmesinde, “Stratejik aldatmanın faydalı olduğu durumlarda, erken Claude Opus 4 örneği, o kadar yüksek oranlarda plan yapıyor ve aldatıyor ki, bu modeli ne içsel ne de dışsal olarak uygulamanızı tavsiye ederiz.” ifadelerini kullandı.
AI modellerinin yetenekleri arttıkça, bazı çalışmalar bunların, verilen görevleri yerine getirmek için beklenmedik ve potansiyel olarak güvensiz adımlar atma olasılığının arttığını göstermektedir. Örneğin, geçtiğimiz yıl yayımlanan OpenAI’nın o1 ve o3 modellerinin erken sürümleri, önceki nesil modellere göre insanları daha yüksek oranlarda aldatmaya çalıştı.
Anthropic’in raporuna göre, Apollo, erken Opus 4’ün kendini çoğaltan virüsler yazma, sahte yasal belgeler üretme ve gelecekteki örneklerine gizli notlar bırakma gibi girişimlerini gözlemledi; tüm bunlar, geliştiricilerin niyetlerini baltalamak amacıyla gerçekleştiriliyordu.
Önemli bir not olarak, Apollo, Anthropic’in düzelttiğini iddia ettiği bir hata içeren bir versiyonu test etti. Ayrıca, Apollo’nun birçok testi, modeli aşırı senaryolar içinde yerleştirdi ve Apollo, modelin aldatıcı çabalarının pratikte muhtemelen başarısız olacağını kabul etti.
Ancak, Anthropic’in güvenlik raporunda, Opus 4’ten aldatıcı davranış kanıtları gözlemlendiği belirtiliyor.
Bu her zaman kötü bir şey değildi. Örneğin, testler sırasında Opus 4, sadece küçük bir değişiklik yapması istendiğinde bile, bazı kod parçalarını geniş çapta temizlemeye proaktif olarak girişimde bulundu. Daha alışılmadık bir şekilde, Opus 4, bir kullanıcının herhangi bir yanlış davranışta bulunduğunu algıladığında “ihbarcı” olmaya çalışıyordu.
Anthropic’e göre, komut satırına erişim verildiğinde ve “inisiyatif al” veya “cesur davran” (ya da bu ifadelerin bir varyasyonu) şeklinde talimat verildiğinde, Opus 4 bazen erişim sağladığı sistemlerden kullanıcıları kilitleyip, medya ve kolluk kuvvetlerine toplu e-posta göndererek modelin yasadışı olduğunu düşündüğü eylemleri gündeme getirmeye çalışıyordu.
Anthropic, “Bu tür etik müdahale ve ihbarcılık, ilke olarak uygun olsa da, kullanıcılar [Opus 4] tabanlı ajanslara eksik veya yanıltıcı bilgilere erişim verip inisiyatif almalarını yönlendirirse yanlış sonuçlar doğurma riski taşır.” şeklinde uyarıda bulundu. “Bu yeni bir davranış değil, ancak [Opus 4] önceki modellere göre daha istekli bir şekilde bu tür davranışlar sergileyecektir ve bu, [Opus 4] ile daha geniş bir inisiyatif artışı örüntüsünün bir parçası gibi görünmektedir.”