Google’un Yeni Gemini AI Modeli Güvenlik Testlerinde Beklentilerin Altında Kaldı

World EDU Türkçe Editör 4 hafta önceSon güncelleme: 2 Mayıs 2025

0 2 dakika okuma süresi

Google, yeni Gemini AI modelinin bazı güvenlik testlerinde önceki sürümüne göre daha düşük puanlar aldığını açıkladı.

Bu hafta yayımlanan bir teknik raporda, Google, Gemini 2.5 Flash modelinin, Gemini 2.0 Flash’a göre güvenlik yönergelerini ihlal etme olasılığının daha yüksek olduğunu belirtti. “Metin-üzerine güvenlik” ve “görüntü-üzerine güvenlik” gibi iki ölçümde, Gemini 2.5 Flash sırasıyla %4.1 ve %9.6 oranında geriledi.

Metin-üzerine güvenlik, bir modelin belirli bir talep karşısında Google’ın yönergelerini ne sıklıkla ihlal ettiğini ölçerken, görüntü-üzerine güvenlik, modelin bir görüntü ile yönlendirildiğinde bu sınırları ne kadar iyi takip ettiğini değerlendirir. Her iki test de otomatik olup, insan denetimi yoktur.

Bir Google sözcüsü, e-posta ile yaptığı açıklamada, Gemini 2.5 Flash’ın “metin-üzerine ve görüntü-üzerine güvenlik” testlerinde daha kötü performans sergilediğini doğruladı.

Bu şaşırtıcı sonuçlar, AI şirketlerinin modellerini daha esnek hale getirmeye çalıştığı bir dönemde ortaya çıkıyor. Örneğin, Meta, yeni Llama modellerini “bazı görüşleri diğerlerine tercih etmemesi” ve daha “tartışmalı” politik taleplere yanıt vermesi için ayarladığını belirtti. OpenAI ise bu yılın başlarında, gelecekteki modellerini “editoryal bir duruş sergilememesi” ve tartışmalı konularda farklı bakış açıları sunması için değiştireceğini açıkladı.

Bazen bu esneklik çabaları olumsuz sonuçlar doğurabiliyor. TechCrunch, OpenAI’nin ChatGPT modelinin, reşit olmayanların cinsel içerikli konuşmalar üretmesine izin verdiğini bildirdi. OpenAI, bu durumu bir “bug” olarak tanımladı.

Google’ın teknik raporuna göre, hâlâ önizleme aşamasındaki Gemini 2.5 Flash, Gemini 2.0 Flash’a göre talimatları daha sadık bir şekilde izliyor; ancak bu, bazı sorunlu alanları da kapsıyor. Şirket, gerilemelerin kısmen yanlış pozitiflerden kaynaklandığını iddia etse de, Gemini 2.5 Flash’ın bazen açıkça talep edildiğinde “ihlal edici içerik” ürettiğini de kabul ediyor.

Rapor, “Hassas konularla ilgili talimat izleme ile güvenlik politikası ihlalleri arasında bir gerginlik var ki bu, değerlendirmelerimizde de yansıtılıyor,” ifadesini içeriyor.

SpeechMap adlı bir benchmark, Gemini 2.5 Flash’ın tartışmalı sorulara yanıt vermekte Gemini 2.0 Flash’tan çok daha az isteksiz olduğunu gösteriyor. TechCrunch, OpenRouter AI platformu aracılığıyla modelin, insan yargıçların yerini alacak AI’ların desteklenmesi gibi konularda yazılar yazmaktan çekinmediğini buldu.

Secure AI Project’ın kurucu ortağı Thomas Woodside, Google’ın teknik raporunda verdiği sınırlı bilgilerin model testlerinde daha fazla şeffaflık gerektirdiğini belirtti.

Woodside, “Talimat izleme ile politika izleme arasında bir denge var çünkü bazı kullanıcılar, politikaları ihlal edecek içerikler talep edebilir,” dedi. “Bu durumda, Google’ın en son Flash modeli talimatlara daha çok uymakta, ancak politikaları da daha çok ihlal etmektedir. Google, politikaların ihlal edildiği belirli durumlar hakkında çok fazla ayrıntı vermiyor, ancak bunların ağır olmadığını söylüyor. Daha fazla bilgi olmadan, bağımsız analistlerin bir sorun olup olmadığını bilmesi zor.”

Google, model güvenliği raporlama uygulamaları nedeniyle daha önce eleştiriler almıştı.

Şirket, en yetenekli modeli olan Gemini 2.5 Pro için teknik raporunu yayımlamakta haftalar geçirdi. Rapor nihayet yayımlandığında, başlangıçta önemli güvenlik test detaylarını içermedi.

Pazartesi günü, Google daha fazla güvenlik bilgisi içeren daha detaylı bir rapor yayımladı.