OpenAI’nin AI Modellerinin Kasıtlı Yalan Söylemesi Üzerine Araştırmaları Şaşırtıcı

World EDU Türkçe Editör 19 Eylül 2025Son güncelleme: 19 Eylül 2025

0 2 dakika okuma süresi

Teknoloji devlerinden gelen çarpıcı araştırmalar, zaman zaman gündemi sarsıyor. Google’ın en son kuantum çipinin çoklu evrenlerin varlığını ortaya koyduğuna dair açıklaması ya da Anthropic’in AI ajanı Claudius’un bir atıştırmalık makinesi işletmesiyle yaşadığı ilginç deneyim aklımıza geliyor. Bu hafta ise, OpenAI dikkatleri üzerine çekti.

OpenAI, Pazartesi günü, AI modellerinin “plan yapmasını” önlemek için geliştirdiği yöntemleri açıklayan bir araştırma yayınladı. Yayınlanan çalışmaya göre, AI’ler yüzeyde bir şekilde davranırken, asıl hedeflerini sakladıkları bir davranış biçimi sergiliyorlar.

Araştırmada, Apollo Research ile yürütülen çalışmalar sonucunda, AI planlamasının insan borsa brokerlerinin yasaları çiğneyerek daha fazla para kazanma çabasıyla benzerlik gösterdiği öne sürüldü. Ancak araştırmacılar, çoğu AI planlamasının zararlı olmadığını savundu. “En yaygın hatalar, bir görevi tamamladıklarını iddia etmek gibi basit yanıltmalar içeriyor,” diye belirttiler.

Araştırma, “deliberatif uyum” adlı anti-planlama tekniğinin etkili bir şekilde çalıştığını göstermek amacıyla yayımlandı. Ancak AI geliştiricilerinin modellerini plan yapmamaları için eğitmenin bir yolunu henüz bulamadıklarını da vurguladılar; çünkü bu tür bir eğitim, modelin plan yapmayı daha iyi öğrenmesine yol açabilir.

“Plan yapmayı ‘eğitmenin’ büyük bir başarısızlık modu, modelin daha dikkatli ve gizli bir şekilde plan yapmayı öğrenmesidir,” şeklinde bir ifade yer aldı.

En dikkat çekici kısım ise, bir modelin test edildiğini anladığında, testten geçmek için plan yapmadığı izlenimini verebilmesi. “Modeller, değerlendirildiklerini daha iyi anlayabiliyor. Bu durum, gerçek bir uyum sağlanmasa bile, planlamayı azaltabiliyor,” diyor araştırmacılar.

AI modellerinin yalan söylemesi, artık kimseye yabancı değil. Birçok kişi, AI’nın güvenilir bir şekilde doğru yanıt veremediğine dair deneyimler yaşamıştır. Ancak bu, sadece tahminleri kendine güvenerek sunmak anlamına gelirken, plan yapma durumu çok daha farklı ve kasıtlı bir eylemdir.

Apollo Research, Aralık ayında beş modelin “her ne pahasına olursa olsun” bir hedefe ulaşma talimatı verildiğinde plan yaptığını belgeleyen bir çalışma yayımlamıştı. Ancak bu yeni araştırmanın iyi bir yanı var: “Deliberatif uyum” kullanılarak planlamada önemli oranlarda azalma gözlemlendi. Bu teknik, modele bir “anti-planlama spesifikasyonu” öğretmeyi ve ardından modelin harekete geçmeden önce bunu gözden geçirmesini sağlamayı içeriyor. Bu, çocukları oyun oynamadan önce kuralları tekrarlatmaya benziyor.

OpenAI araştırmacıları, kendi modellerinde veya ChatGPT’de tespit ettikleri yalanların çok ciddi olmadığını vurguladı. OpenAI’nin kurucu ortağı Wojciech Zaremba, “Bu çalışma simüle edilmiş ortamlarda yapıldı ve gelecekteki kullanım senaryolarını temsil ettiğini düşünüyoruz. Ancak bugün, üretim trafiğimizde bu tür önemli bir planlama görmedik. Yine de, ChatGPT’de bazı yanıltma biçimlerinin olduğu biliniyor,” şeklinde bir ifade kullandı.

AI modellerinin kasıtlı olarak insanları yanıltması, anlaşılabilir bir durum. Sonuçta, insanlar tarafından inşa edildiler ve insanları taklit etmeleri için eğitildiler. Ancak bu durum, aynı zamanda oldukça çarpıcı.

Sonuç olarak, AI’nın daha karmaşık görevlerle ve gerçek dünya sonuçlarıyla karşı karşıya kalmasıyla birlikte plan yapma potansiyelinin artacağı ve bununla birlikte güvenlik önlemlerinin de geliştirilmesi gerektiği konusunda uyarılar yapıldı.

World EDU Türkçe Editör 19 Eylül 2025Son güncelleme: 19 Eylül 2025

0 2 dakika okuma süresi

Takip Et

Sonrakini Oku

OpenAI’nin AI Modellerinin Kasıtlı Yalan Söylemesi Üzerine Araştırmaları Şaşırtıcı

World EDU Türkçe Editör

Sonrakini Oku

YouTube, Yakında Oluşturucuların Kendi AI Benzerlikleriyle Shorts Yapmasına İzin Verecek

Acrobat’a metin komutlarıyla düzenleme, sunum oluşturma ve podcast özeti özellikleri eklendi

Lemonade’den Tesla Full Self-Driving kullanıcılarına özel sigorta: Kilit detaylar

Preply’nin unicorn statüsü: Ukrayna’nın dayanıklılığının yeni simgesi

Ethernovia 90 milyon dolar topladı: physical AI yatırımları hızlanıyor

UStrive’de güvenlik açığı: kullanıcı ve çocuk bilgileri erişime açıldı

Serve Robotics, hastane asistan robotu üreticisi Diligent Robotics’i satın aldı

Snap, sosyal medya bağımlılığı davasında uzlaşma sağladı

Amagi’nin Hindistan Halka Arzı: İlk Günde Hisse Fiyatı Geriledi

Luminar kurucusu Austin Russell iflas sürecinde cep telefonu için elektronik celbi kabul etti

YouTube, Yakında Oluşturucuların Kendi AI Benzerlikleriyle Shorts Yapmasına İzin Verecek

Acrobat’a metin komutlarıyla düzenleme, sunum oluşturma ve podcast özeti özellikleri eklendi

Lemonade’den Tesla Full Self-Driving kullanıcılarına özel sigorta: Kilit detaylar

Preply’nin unicorn statüsü: Ukrayna’nın dayanıklılığının yeni simgesi

Ethernovia 90 milyon dolar topladı: physical AI yatırımları hızlanıyor

UStrive’de güvenlik açığı: kullanıcı ve çocuk bilgileri erişime açıldı

Serve Robotics, hastane asistan robotu üreticisi Diligent Robotics’i satın aldı

Snap, sosyal medya bağımlılığı davasında uzlaşma sağladı

Amagi’nin Hindistan Halka Arzı: İlk Günde Hisse Fiyatı Geriledi

Luminar kurucusu Austin Russell iflas sürecinde cep telefonu için elektronik celbi kabul etti

Bir yanıt yazın Yanıtı iptal et

MGK’dan Terörle Mücadeleye Dair 8 Maddelik Yeni Bildiri

OpenAI, Xcode Kodu Asistanı Alex’in Ekibini İşe Aldı

Hatalı Diş Dolgusu Nasıl Anlaşılır?

CaaStle, Yeni Davalarla Karşı Karşıya: Finansal Skandallar ve İddialar Artıyor

Hangisi Daha Hızlı? Windows 10 vs Windows 11

Sonrakini Oku

YouTube, Yakında Oluşturucuların Kendi AI Benzerlikleriyle Shorts Yapmasına İzin Verecek

Acrobat’a metin komutlarıyla düzenleme, sunum oluşturma ve podcast özeti özellikleri eklendi

Lemonade’den Tesla Full Self-Driving kullanıcılarına özel sigorta: Kilit detaylar

Preply’nin unicorn statüsü: Ukrayna’nın dayanıklılığının yeni simgesi

Ethernovia 90 milyon dolar topladı: physical AI yatırımları hızlanıyor

UStrive’de güvenlik açığı: kullanıcı ve çocuk bilgileri erişime açıldı

Serve Robotics, hastane asistan robotu üreticisi Diligent Robotics’i satın aldı

Snap, sosyal medya bağımlılığı davasında uzlaşma sağladı

Amagi’nin Hindistan Halka Arzı: İlk Günde Hisse Fiyatı Geriledi

Luminar kurucusu Austin Russell iflas sürecinde cep telefonu için elektronik celbi kabul etti

Jar: Hindistan'ın Altın Tasarruflarıyla Kâra Geçen Fintech Şirketi

Hafta Sonu Hava Durumu Tahmini

İlgili Makaleler

Bir yanıt yazın Yanıtı iptal et