Teknoloji

DeepSeek, API Maliyetlerini Yarıya İndiren ‘Seyrek Dikkat’ Modelini Tanıttı

DeepSeek araştırmacıları, uzun bağlam işlemlerinde önemli ölçüde daha düşük çıkarım maliyetleri sunan yeni deneysel modelini, V3.2-exp’i tanıttı. Bu model, Hugging Face üzerinde yapılan bir duyuru ile kamuoyuna açıklandı ve ayrıca GitHub‘da bağlantılı bir akademik makale de paylaşıldı.

Yeni modelin en önemli özelliği DeepSeek Seyrek Dikkat olarak adlandırılan karmaşık bir sistem. Bu sistem, bağlam penceresinden belirli alıntıları önceliklendirmek için “ışık indeksleyici” adı verilen bir modül kullanıyor. Ardından, “ince taneli token seçme sistemi” belirli token’ları seçerek modülün sınırlı dikkat penceresine yükleniyor. Bu bileşenler bir araya geldiğinde, Seyrek Dikkat modellerinin uzun bağlam parçaları üzerinde daha küçük sunucu yükleri ile çalışmasına olanak tanıyor.

Ekran Görüntüsü

Uzun bağlam işlemlerinde, sistemin sağladığı faydalar oldukça kayda değer. DeepSeek’in ön testleri, basit bir API çağrısının maliyetinin uzun bağlam durumlarında %50 kadar azaltılabileceğini ortaya koydu. Daha sağlam bir değerlendirme için ek testler gerekecek; ancak modelin açık ağırlıkta ve Hugging Face‘da ücretsiz olarak sunulması, üçüncü taraf testlerin, makalede öne sürülen iddiaları değerlendirmesini sağlayacaktır.

DeepSeek’in yeni modeli, çıkarım maliyetleri sorununu ele alan son dönem yeniliklerinin bir parçası. Çıkarım maliyeti, önceden eğitilmiş bir yapay zeka modelinin işletme sunucu maliyetleri olarak tanımlanıyor. DeepSeek araştırmacıları, temel transformer mimarisinin daha verimli çalışmasını sağlamak için yollar aradı ve bu alanda önemli iyileştirmelerin yapılabileceğini tespit etti.

Çin merkezli DeepSeek, yapay zeka alanındaki büyüme sırasında alışılmadık bir figür olarak öne çıkıyor. Şirket, yılın başlarında, Amerikan rakiplerinden çok daha düşük maliyetle, ağırlıklı olarak pekiştirmeli öğrenme ile eğitilen R1 modeli ile dikkat çekti. Ancak, bu modelin beklenildiği gibi AI eğitiminde devrim yaratmadığı ve şirketin son aylarda dikkatlerden uzaklaştığı görülüyor.

Yeni “seyrek dikkat” yaklaşımının, R1 kadar büyük bir etki yaratması beklenmiyor; ancak yine de ABD sağlayıcılarına çıkarım maliyetlerini düşük tutma konusunda gerekli ipuçları verebilir.

World EDU Türkçe Editör

General Editor - Soru ve Eleştirileriniz için İLETİŞİM kısmından bağlantı kurabilirsiniz.

İlgili Makaleler

Bir yanıt yazın

Başa dön tuşu