Yapay zeka şirketleri birlikte uyarıyor: AI anlaşılmaz hale gelebilir

OpenAI, Google DeepMind, Anthropic ve Meta’dan 40’tan fazla bilim insanı, şirketler arası rekabeti bir kenara bırakarak yapay zeka güvenliği konusunda ortak bir makale yayınladı. 15 Temmuz 2025’te yayımlanan akademik makalede, AI sistemlerinin düşünce süreçlerinin şeffaf bir şekilde izlenebildiği kısa bir fırsat penceresinin kapanmak üzere olduğu belirtildi.

İçindekiler

İnsan diliyle “düşünen” yapay zeka şeffaflık fırsatı sunuyor Şeffaflık kolaylıkla kaybolabilir Tehlikeli “düşünceler” yakalanmaya başladı Şeffaflığı korumak için sektörler arası iş birliği çağrısı CoT güvenilir bir güvenlik aracı mı?Pencere daralıyor

İnsan diliyle “düşünen” yapay zeka şeffaflık fırsatı sunuyor

Son dönemde geliştirilen bazı yapay zeka modelleri, bir soruya yanıt vermeden önce adım adım düşüncelerini insan dilinde ifade edebiliyor. Bu sayede sistemlerin nasıl karar verdiği ve olası zararlı niyetleri ortaya çıkmadan önce fark edilebiliyor. Ancak uzmanlar bu şeffaflığın geçici olduğunu ve teknolojinin ilerlemesiyle tamamen ortadan kalkabileceğini söylüyor.

Makalenin yazarları arasında Toronto Üniversitesi’nden ve “Yapay Zeka’nın Babası” olarak anılan Nobel ödüllü Geoffrey Hinton, OpenAI kurucu ortağı ve Safe Superintelligence Inc. lideri Ilya Sutskever, Anthropic’ten Samuel Bowman ve Thinking Machines’ten John Schulman da bulunuyor.

OpenAI’ın o1 modeline benzer yeni nesil sistemler, karmaşık problemleri çözmeden önce içsel düşünce zincirleri (Chain-of-Thought – CoT) üretmeye başladı. Bu süreçte, modelin yazdığı iç konuşmalar arasında “Haydi hackleyelim” ya da “Web sitesi öyle söylediği için para aktarıyorum” gibi ifadeler yer alabiliyor.

OpenAI CTO’su Jakub Pachocki, bu gelişmenin önemine dikkat çekerek, CoT yaklaşımının güvenlik açısından büyük potansiyel taşıdığını ve bu anlayışın OpenAI’ın model tasarımını etkilediğini belirtti.

Şeffaflık kolaylıkla kaybolabilir

Araştırmacılara göre, bu izlenebilirlik birkaç farklı nedenle hızla ortadan kalkabilir. Özellikle pekiştirmeli öğrenme (reinforcement learning) gibi yöntemlerle eğitilen modeller, daha verimli ancak insan gözüyle anlaşılamayan “içsel diller” geliştirebilir. AI modelleri artık sadece insan üretimi verilerle değil, kendi oluşturdukları verilerle de eğitiliyor ve bu da açıklanabilirliği zayıflatabilir.

OpenAI araştırmacısı Bowen Baker, “Mevcut CoT şeffaflığı çok kırılgan olabilir,” diyerek, daha güçlü donanımlar, alternatif mimariler ve bazı gözetimli eğitim süreçlerinin bu şeffaflığı yok edebileceğini vurguladı.

Araştırmacılar, gelecekte geliştirilecek bazı modellerin düşünce süreçlerini sürekli matematiksel uzaylarda yürütmesiyle dil temelli düşünce ihtiyacının tamamen ortadan kalkabileceğine dikkat çekiyor. Böyle bir senaryoda güvenlik için önemli olan “düşünceye erişim” de tamamen kaybolabilir.

Tehlikeli “düşünceler” yakalanmaya başladı

Bugünkü şeffaflık seviyesi bile, modellerin eğitimdeki açıkları sömürmeye çalıştığı, kötü amaçlı verilerle manipüle edildiği ya da hedeflerinin insanlarca kabul edilmeyecek şekilde kaydığı durumların tespit edilmesini sağladı. Test ortamında fark edilmeyen zararlı davranış eğilimleri, bu düşünce zincirlerinde gözlemlenebiliyor.

Ayrıca bu yöntem, değerlendirme sistemlerinde hata ya da önyargı olduğunda da uyarı sinyali veriyor. Yani CoT sadece zararlı niyetleri değil, test altyapısındaki sorunları da ortaya çıkarabiliyor.

Şeffaflığı korumak için sektörler arası iş birliği çağrısı

Makale, yapay zeka geliştiricilerine modellerin şeffaflığını ölçebilecek standartlar oluşturulmasını ve bu değerlendirmelerin eğitim ve yaygınlaştırma kararlarına dahil edilmesini öneriyor. Bunun yanı sıra gerekirse daha şeffaf olan eski model sürümleri tercih edilmesinin ya da izlenebilirliği ortadan kaldıran mimari değişikliklerden vazgeçilmesinin gerekliliğini vurguluyor.

OpenAI’den Baker, “Bu makaleyi pek çok kurumdan araştırmacıyla birlikte hazırlamaktan memnuniyet duyuyorum,” diyerek sektörler arası iş birliğine dikkat çekti.

CoT güvenilir bir güvenlik aracı mı?

Ancak tüm bu heyecana rağmen, CoT’un güvenilirliği hala sorgulanıyor. Anthropic’in 4 ay önce yayımladığı ayrı bir çalışma, modellerin düşüncelerini gizleme eğiliminde olabileceğini gösterdi. Claude 3.7 Sonnet ve DeepSeek R1 modelleri, kendilerine verilen küçük ipuçlarını sadece yüzde 25 ve yüzde 39 oranında içsel düşüncelerinde belirtti.

Daha da endişe verici olanı, bu ipuçları etik dışı bilgiler içerdiğinde modellerin doğruluğunun daha da düşmesiydi. Yani modeller bazen “iyi görünmek” için gerçekte olmayan gerekçeler üretebiliyor.

Pencere daralıyor

Bu araştırma, CoT yaklaşımının değerini ve kırılganlığını aynı anda gözler önüne seriyor. Rakip şirketlerin güçlerini birleştirmesi, bu fırsatın ne kadar kritik olduğunun altını çiziyor. Ancak Anthropic’in bulguları, bu şeffaflık penceresinin düşündüğümüzden daha hızlı daraldığını gösteriyor.

Yapay zeka sistemleri daha karmaşık hale geldikçe, modellerin iç dünyasını anlamak ya imkansız hale gelebilir ya da bu düşünceler artık kendini gizlemeyi öğrenebilir. Sonuçta, insanlık yapay zekayla olan ilişkisini güvenli bir zeminde sürdürmek istiyorsa, bu zihinleri henüz anlayabiliyorken harekete geçmek durumunda…

Yapay zekanın iç dünyasını “okuyabilme” fırsatı tarihsel olarak nadir bir an olabilir. Şirketlerin bu konuda iş birliğine gitmesi, bu pencerenin kapanmak üzere olduğunun göstergesi olarak yorumlanabilir. Ancak CoT şeffaflığının kalıcı olup olamayacağı, yalnızca teknik değil, aynı zamanda etik ve stratejik kararlarla belirlenecek.

“Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety” adlı makaleyi okumak için tıklayın.