Inception, Kod ve Metin İçin Diffüzyon Modelleri Geliştirmek İçin 50 Milyon Dolar Topladı

Yapay zeka girişimlerine büyük yatırımlar yapılırken, bir fikri denemek isteyen AI araştırmacıları için oldukça uygun bir zaman. Eğer fikir yeterince yenilikçi ise, bağımsız bir şirket olarak gerekli kaynakları elde etmek, büyük laboratuvarların içinde olmaktan daha kolay hale gelebilir.
Bu, Inception adlı girişimin hikayesi. Diffüzyon tabanlı AI modelleri geliştiren bu startup, Menlo Ventures liderliğinde 50 milyon dolarlık bir ilk yatırım aldı. Andrew Ng ve Andrej Karpathy, ek yatırımcı olarak projeye destek verdiler.
Projenin lideri, Stanford Üniversitesi’nden profesör Stefano Ermon. Araştırmaları, kelime kelime yerine yinelemeli iyileştirme yoluyla çıktı üreten diffüzyon modelleri üzerine yoğunlaşıyor. Bu modeller, Stable Diffusion, Midjourney ve Sora gibi görüntü tabanlı AI sistemlerini besliyor. AI patlaması öncesinde bu sistemler üzerinde çalışan Ermon, Inception aracılığıyla aynı modelleri daha geniş bir görev yelpazesine uygulamayı hedefliyor.
Yatırımın yanı sıra, şirket yazılım geliştirmeye yönelik yeni bir versiyonunu, Mercury modelini tanıttı. Mercury, ProxyAI, Buildglare ve Kilo Code gibi birçok geliştirme aracıyla entegre edildi. En önemlisi, Ermon’a göre, diffüzyon yaklaşımı Inception’ın modellerinin iki kritik ölçütü, gecikme (yanıt süresi) ve hesaplama maliyeti açısından tasarruf etmesine yardımcı olacak.
“Bu diffüzyon tabanlı LLM’ler, günümüzde herkesin inşa ettiği modellere göre çok daha hızlı ve verimli,” diyor Ermon. “Bu tamamen farklı bir yaklaşım ve hala masaya getirilebilecek birçok yenilik var.”
Teknik farkı anlamak için biraz arka plana ihtiyaç var. Diffüzyon modelleri, metin tabanlı AI hizmetlerinde hakim olan oto-regresyon modellerinden yapısal olarak farklıdır. GPT-5 ve Gemini gibi oto-regresyon modelleri, her bir sonraki kelimeyi veya kelime parçasını daha önce işlenmiş materyale dayanarak tahmin ederek ardışık çalışır. Oysa diffüzyon modelleri, görüntü oluşturma için eğitilir ve bir yanıtın genel yapısını istenen sonuca ulaşana kadar kademeli olarak değiştirir.
Geleneksel anlayış, metin uygulamaları için oto-regresyon modellerinin kullanılmasını öneriyor ve bu yaklaşım, son nesil AI modelleri için büyük bir başarı elde etti. Ancak, artan araştırmalar, diffüzyon modellerinin büyük miktarda metin işleme veya veri kısıtlamalarını yönetme konusunda daha iyi performans gösterebileceğini öne sürüyor. Ermon’a göre, bu özellikler, büyük kod tabanları üzerinde işlem yaparken gerçek bir avantaj sağlıyor.
Diffüzyon modelleri ayrıca donanımı nasıl kullandıkları konusunda daha fazla esneklik sunuyor. Bu, AI’nin altyapı taleplerinin belirginleştiği bir dönemde önemli bir avantaj. Oto-regresyon modelleri işlemleri birer birer yürütmek zorundayken, diffüzyon modelleri pek çok işlemi aynı anda işleyebiliyor, bu da karmaşık görevlerde gecikmeyi önemli ölçüde azaltıyor.
“Bir saniyede 1,000’den fazla token ile benchmark yapıldık, bu mevcut oto-regresif teknolojilerle mümkün olandan çok daha yüksek,” diyor Ermon. “Çünkü bizim modelimiz paralel çalışacak şekilde inşa edildi. Gerçekten çok hızlı olacak şekilde tasarlandı.”







