Teknoloji

Anthropic’in Yeni Özelliği: Claude Modelleri Zararlı Konuşmaları Sonlandırabiliyor

Anthropic, en yeni ve en büyük modellerinin, “nadiren ortaya çıkan, sürekli zararlı veya istismar edici kullanıcı etkileşimlerini” sonlandırma yeteneğine sahip olduğunu duyurdu. Şirket, bu adımı atarken amacı olarak insan kullanıcıyı korumak değil, AI modelinin kendisini korumak olduğunu belirtiyor.

Açık olmak gerekirse, Anthropic, Claude AI modellerinin düşünceli olmadığını veya kullanıcılarla olan konuşmalarından zarar görebileceğini iddia etmiyor. Şirket, Claude ve diğer büyük dil modellerinin (LLM’ler) potansiyel ahlaki statüsü hakkında “yüksek derecede belirsiz” olduğunu ifade ediyor.

Bununla birlikte, bu açıklama, şirketin “model refahını” incelemek üzere oluşturduğu son programı işaret ediyor ve Anthropic, bu konuda “riskleri azaltmak için düşük maliyetli müdahaleleri belirlemeye ve uygulamaya çalıştığını” vurguluyor.

Bu yeni özellik şu anda yalnızca Claude Opus 4 ve 4.1 modellerinde geçerli. Ayrıca, yalnızca “aşırı uç durumlar” için geçerli olacağı belirtiliyor; örneğin, “küçüklerle ilgili cinsel içerik talepleri” veya “büyük ölçekli şiddet veya terör eylemlerine yönelik bilgi talep etme girişimleri”.

Bu tür taleplerin Anthropic için yasal veya kamuoyuna yönelik sorunlar yaratabileceği düşünülse de, şirket, ön testlerde Claude Opus 4’ün bu taleplere karşı “güçlü bir tercih” gösterdiğini ve yanıt verirken “belirgin bir sıkıntı modeli” sergilediğini belirtiyor.

Yeni konuşmayı sonlandırma yetenekleri hakkında ise şirket, “Claude’un, bir etkileşimi sonlandırmak için bir son çare olarak bu yeteneği kullanması gerektiğini” ifade ediyor. Çok sayıda yönlendirme girişimi başarısız olduğunda veya kullanıcı açıkça Claude’dan bir sohbeti sonlandırmasını istediğinde devreye girecek.

Anthropic, Claude’un “kullanıcıların kendilerine veya başkalarına zarar verme riski bulunduğunda bu yeteneği kullanmaktan kaçınması için yönlendirildiğini” de ekliyor.

Claude bir konuşmayı sonlandırdığında, kullanıcıların aynı hesaptan yeni sohbetler başlatabileceği ve sorunlu konuşmanın yeni dallarını oluşturabileceği belirtiliyor. Şirket, bu özelliği “devam eden bir deney” olarak gördüklerini ve yaklaşımını sürekli olarak geliştireceklerini vurguluyor.

World EDU Türkçe Editör

General Editor - Soru ve Eleştirileriniz için İLETİŞİM kısmından bağlantı kurabilirsiniz.

İlgili Makaleler

Bir yanıt yazın

Başa dön tuşu