Teknoloji

Google, Yeni ‘İçsel Önbellekleme’ Özelliği ile AI Modellerini Daha Uygun Hale Getiriyor

Google, Gemini API’sinde, üçüncü taraf geliştiricilerin en son yapay zeka modellerine daha uygun fiyatlarla erişmesini sağlayacak bir özelliği hayata geçiriyor.

Bu yeni özellik “içsel önbellekleme” olarak adlandırılırken, Gemini API aracılığıyla modellere gönderilen “tekrarlayan bağlam” üzerinde %75’e varan tasarruf sağladığını iddia ediyor. Özellik, Google’ın Gemini 2.5 Pro ve 2.5 Flash modellerini destekliyor.

Geliştiriciler için bu gelişme oldukça sevindirici, zira sınır modellerinin kullanım maliyetleri artmaya devam ediyor.

Önbellekleme, yapay zeka endüstrisinde yaygın bir uygulama olarak, sık erişilen veya önceden hesaplanmış verilerin yeniden kullanımını sağlayarak, hesaplama gereksinimlerini ve maliyetleri azaltır. Örneğin, önbellekler, kullanıcıların bir modelden sıkça sorduğu soruların yanıtlarını depolayarak, aynı isteğe yanıt oluşturma gereğini ortadan kaldırır.

Google daha önce yalnızca belirgin önbellekleme sunuyordu; bu durumda geliştiricilerin en yüksek frekansa sahip istemlerini tanımlamaları gerekiyordu. Maliyet tasarrufları garanti edilse de, belirgin önbellekleme genellikle oldukça fazla manuel çalışma gerektiriyordu.

Bazı geliştiriciler, Google’ın Gemini 2.5 Pro için belirgin önbellekleme uygulamasının beklenmedik şekilde yüksek API faturalarına neden olabileceğinden şikayetçi oldu. Geçtiğimiz hafta şikayetler artarken, Gemini ekibi özür dileyip değişiklik yapma sözü verdi.

Belirgin önbelleklemenin aksine, içsel önbellekleme otomatik olarak devreye giriyor. Gemini 2.5 modelleri için varsayılan olarak etkinleştirilen bu özellik, bir Gemini API isteği önbelleğe düştüğünde maliyet tasarruflarını geçiriyor.

Google, Gemini 2.5 modellerine yapılan bir isteğin, daha önceki isteklerle ortak bir ön ek paylaşması durumunda önbellek hitine uygun olduğunu açıkladı. “Maliyet tasarruflarını dinamik olarak size ileteceğiz.”

İçsel önbellekleme için minimum istem token sayısı 2.5 Flash için 1,024 ve 2.5 Pro için 2,048’dir. Bu miktar, otomatik tasarrufları tetiklemek için pek çok veri gerektirmediği anlamına geliyor. Tokenlar, modellerin çalıştığı ham veri birimleridir ve bin token yaklaşık 750 kelimeye eşdeğerdir.

Google’ın önbelleklemeden sağladığı önceki maliyet tasarrufu iddiaları olumsuz yanıtlar aldı, bu nedenle bu yeni özellikte dikkat edilmesi gereken bazı noktalar var. Geliştiricilerin, tekrarlayan bağlamı isteklerin başında tutmaları öneriliyor. Değişken bağlam ise isteğin sonuna eklenmelidir.

Ayrıca, Google yeni içsel önbellekleme sisteminin vaat edilen otomatik tasarrufları sağlayacağına dair üçüncü taraf bir doğrulama sunmadı. Bu nedenle, erken benimseyenlerin yorumlarını görmek gerekecek.

World EDU Türkçe Editör

General Editor - Soru ve Eleştirileriniz için İLETİŞİM kısmından bağlantı kurabilirsiniz.

İlgili Makaleler

Bir yanıt yazın

Başa dön tuşu