
DeepSeek’in güncellenmiş R1 akıl yürütme AI modeli, bu hafta yapay zeka topluluğunun dikkatini çekmeyi başardı. Ancak, Çinli AI laboratuvarı, aynı zamanda daha küçük ve “distile” bir versiyonu olan DeepSeek-R1-0528-Qwen3-8B‘yi de tanıttı. DeepSeek, bu modelin benzer boyuttaki diğer modellere göre belirli ölçütlerde daha iyi performans gösterdiğini iddia ediyor.
Yeni, daha küçük R1 modeli, Mayıs ayında Alibaba tarafından piyasaya sürülen Qwen3-8B modelini temel alarak inşa edildi. Bu model, zorlu matematik sorularından oluşan AIME 2025 testinde Google’ın Gemini 2.5 Flash modelinden daha iyi sonuçlar elde etti.
DeepSeek-R1-0528-Qwen3-8B, Microsoft’un yakın zamanda tanıttığı Phi 4 akıl yürütme plus modelinin başka bir matematik becerileri testinde de neredeyse eşit sonuçlar verdi.
Genel olarak, distile modeller olan DeepSeek-R1-0528-Qwen3-8B, tam boyutlu muadillerine göre daha az yetenekli olarak kabul edilir. Ancak, bu modellerin avantajı, daha az hesaplama kaynağı gerektirmeleridir. NodeShift adlı bulut platformuna göre, Qwen3-8B’nin çalışması için 40GB-80GB RAM’e sahip bir GPU’ya ihtiyaç vardır (örneğin, bir Nvidia H100). Oysa tam boyutlu yeni R1 için yaklaşık on adet 80GB GPU gerekmektedir.
DeepSeek, DeepSeek-R1-0528-Qwen3-8B modelini, güncellenmiş R1 tarafından üretilen metinlerle Qwen3-8B’yi ince ayar yaparak eğitti. AI geliştirici platformu Hugging Face’deki model için özel bir sayfada, DeepSeek, DeepSeek-R1-0528-Qwen3-8B’yi “hem akıl yürütme modelleri üzerine akademik araştırmalar hem de küçük ölçekli modellere odaklanmış endüstriyel geliştirme için” olarak tanımlıyor.
DeepSeek-R1-0528-Qwen3-8B, sınırsız ticari kullanım için izin veren MIT lisansı altında mevcuttur. LM Studio gibi birçok platform, bu modeli API aracılığıyla sunmaktadır.