DeepSeek’in Yeni R1 AI Modeli Tek Bir GPU Üzerinde Çalışabiliyor

DeepSeek’in güncellenmiş R1 akıl yürütme AI modeli, bu hafta yapay zeka topluluğunun dikkatini çekmeyi başardı. Ancak, Çinli AI laboratuvarı, aynı zamanda daha küçük ve “distile” bir versiyonu olan DeepSeek-R1-0528-Qwen3-8B‘yi de tanıttı. DeepSeek, bu modelin benzer boyuttaki diğer modellere göre belirli ölçütlerde daha iyi performans gösterdiğini iddia ediyor.
Yeni, daha küçük R1 modeli, Mayıs ayında Alibaba tarafından piyasaya sürülen Qwen3-8B modelini temel alarak inşa edildi. Bu model, zorlu matematik sorularından oluşan AIME 2025 testinde Google’ın Gemini 2.5 Flash modelinden daha iyi sonuçlar elde etti.
DeepSeek-R1-0528-Qwen3-8B, Microsoft’un yakın zamanda tanıttığı Phi 4 akıl yürütme plus modelinin başka bir matematik becerileri testinde de neredeyse eşit sonuçlar verdi.
Genel olarak, distile modeller olan DeepSeek-R1-0528-Qwen3-8B, tam boyutlu muadillerine göre daha az yetenekli olarak kabul edilir. Ancak, bu modellerin avantajı, daha az hesaplama kaynağı gerektirmeleridir. NodeShift adlı bulut platformuna göre, Qwen3-8B’nin çalışması için 40GB-80GB RAM’e sahip bir GPU’ya ihtiyaç vardır (örneğin, bir Nvidia H100). Oysa tam boyutlu yeni R1 için yaklaşık on adet 80GB GPU gerekmektedir.
DeepSeek, DeepSeek-R1-0528-Qwen3-8B modelini, güncellenmiş R1 tarafından üretilen metinlerle Qwen3-8B’yi ince ayar yaparak eğitti. AI geliştirici platformu Hugging Face’deki model için özel bir sayfada, DeepSeek, DeepSeek-R1-0528-Qwen3-8B’yi “hem akıl yürütme modelleri üzerine akademik araştırmalar hem de küçük ölçekli modellere odaklanmış endüstriyel geliştirme için” olarak tanımlıyor.
DeepSeek-R1-0528-Qwen3-8B, sınırsız ticari kullanım için izin veren MIT lisansı altında mevcuttur. LM Studio gibi birçok platform, bu modeli API aracılığıyla sunmaktadır.