Geçtiğimiz hafta boyunca, bir yapay zeka chatbot’unun resmen Turing testini geçtiğine dair pek çok habere şahit olduk. Bu haberler, Kaliforniya Üniversitesi San Diego’dan iki araştırmacının yaptığı yakın tarihli bir ön baskı çalışmasına dayanıyor. Bu çalışmada dört büyük dil modeli (LLM), Turing testine tabi tutuldu. Bu modellerden biri – OpenAI’ın GPT-4.5’i – katılımcılar tarafından yüzde 70’ten fazla oranda insandan ayırt edilemez olarak değerlendirildi.
Turing testi, makine zekasının nihai göstergesi olarak kabul edilmiş durumda. Ancak buna rağmen testin geçerliliği konusunda fikir birliği bulunmuyor. Hatta testin geçmişi üzerine fazlaca tartışıldığı gibi, makine zekasını ölçmede ne kadar etkili olduğu sorusunu da beraberinde getiriyor.
Peki bu yeni çalışmanın çıktıları ne anlama geliyor?
Çalışma neyi ortaya koydu?
Bilişsel bilimciler Cameron Jones ve Benjamin Bergen tarafından yapılan ve Mart 2025’te yayımlanan ön baskı aşamasındaki ve henüz hakem değerlendirmesinden geçmemiş olan çalışma, dört büyük dil modelini test etti: ELIZA, GPT-4o, LLaMa-3.1-405B ve GPT-4.5.
Testlerde, insan katılımcılar sekiz tur boyunca aynı anda iki muhatapla yazılı mesajlaşma yoluyla sohbet etti. Bu muhataplardan biri gerçek bir insandı, diğeri ise bir dil modeliydi. Toplam 284 katılımcı rastgele şekilde ya sorgulayıcı ya da muhatap olarak görevlendirildi.
Katılımcılar, beş dakika boyunca iki muhatapla ikiye bölünmüş bir ekran üzerinden aynı anda etkileşime geçti. Test arayüzü, klasik bir mesajlaşma uygulamasını taklit edecek şekilde tasarlandı. Etkileşimin ardından, katılımcılar hangi muhatabın insan, hangisinin yapay zeka sohbet botu olduğuna karar verdi.
Katılımcılar GPT-4.5’i yüzde 73 oranında insan zannetti. LLaMa-3.1-405B ise yüzde 56 oranında insan olarak değerlendirildi. Diğer iki model (ELIZA ve GPT-4o) ise sırasıyla yüzde 23 ve yüzde 21 oranlarında katılımcıları kandırabildi…
Turing Testi’ni hatırlayalım…
Turing testinin ilk hali, İngiliz matematikçi ve bilgisayar bilimci Alan Turing tarafından 1948 tarihli “Zeki Makineler” adlı yazısında sunulmuştur. Başlangıçta bu test, biri kuramsal bir “kâğıt makine” olan üç kişinin satranç oynadığı bir deney olarak önerilmişti; iki kişi oyuncu, biri ise operatör konumundaydı.
1950’de yayımlanan “Hesaplama Makineleri ve Zeka” başlıklı makalesinde Turing, bu deneyi “taklit oyunu” olarak yeniden tanıttı ve bunu bir makinenin, insanla eşdeğer zekada davranış sergileyip sergileyemeyeceğini belirlemenin bir yolu olarak sundu. Oyunda üç katılımcı yer alıyordu: Katılımcı A bir kadın, katılımcı B bir erkek ve katılımcı C herhangi bir cinsiyetteydi.
C katılımcısı, soru-cevap yoluyla “X A mı ve Y B mi?” yoksa “X B mi ve Y A mı?” sorularını cevaplamaya çalışıyordu. X ve Y bu iki cinsiyeti temsil ediyordu.
Sonrasında şu önerme ortaya atıldı: “Bir makine bu oyunda A rolünü üstlendiğinde ne olur? Oyunu bu şekilde oynarken sorgulayıcı, oyunun bir kadın ve bir erkek arasında oynandığı durumdaki kadar sık yanlış karar verecek mi?”
Bu sorular, “Makineler düşünebilir mi?” gibi soruları yanıtlayabilmek için ortaya atılmıştı. Turing, bu sorunun “makine” ve “düşünmek” kelimelerinin anlamlarının belirsizliği nedeniyle yanıtsız kalacağını savunuyordu.
Yıllar içinde bu deney, Turing testi olarak popülerleşti. Konusu zamanla değişmiş olsa da test, özü itibarıyla hala “X A mı ve Y B mi?” ya da “X B mi ve Y A mı?” sorusu üzerine kurulu.
Neden tartışmalı?
Turing Testi, makine zekasını test etmenin bir yolu olarak popülerleşmiş olsa da, bu yaklaşımın doğruluğu konusunda herkes hemfikir değil. Hatta, test sıklıkla eleştiriliyor.
Turing Testi’ne yönelik dört temel itiraz bulunuyor:
- Davranış ve düşünce farkı: Bazı araştırmacılar, testten “geçmenin” aslında zekayla değil, davranışsal yeterlilikle ilgili olduğunu savunuyor. Yani bir makinenin bu oyunu geçmesi, gerçekten düşünebildiği anlamına gelmez.
- Beyinler makine değildir: Turing, beynin bir makine olduğunu ve tamamen mekanik terimlerle açıklanabileceğini öne sürmüştür. Ancak birçok akademisyen bu görüşe karşı çıkarak testin geçerliliğini sorgular.
- İçsel işleyiş farkı: Bilgisayarların karar verme süreçleri insanlar gibi çalışmaz; bu da doğrudan karşılaştırmaları yetersiz kılar.
- Testin kapsamı: Bazı araştırmacılar, yalnızca bir tür davranışı test etmenin zekayı ölçmek için yeterli olmadığını düşünür.
Peki, an itibarıyla, bir LLM insan kadar zeki mi?
Ön baskıda olan makale, GPT-4.5’in Turing Testi’ni geçtiğini iddia etse de, şu ifadeye de yer veriyor:
Turing testi, yer değiştirme ölçüsüdür: bir sistemin, bir insan yerine geçip geçemeyeceğini ve bunun fark edilip edilmediğini test eder.
Bu ifade, araştırmacıların Turing testini insan zekasının meşru bir ölçütü olarak görmediğine işaret ediyor gibi gözüküyor. Daha çok, insan zekasının taklidine dair bir değerlendirmedir – yani testin kökenlerine bir gönderme niteliğinde olarak yorumlanabilir.
Ayrıca, her araştırma sürecinde olduğu gibi çalışmanın koşulları da tartışmalı/sınırlı olarak değerlendirilebilir. Örneğin, beş dakikalık bir test süresi oldukça kısa sayılabilir. Bunun yanında, testin açıklamasına göre her bir dil modeli belirli bir kişilik profilini/personayı sahiplenme prompt’unu aldı, ancak bu kişiliklerin ne ve kim olduğunun yanı sıra test sonuçlarını nasıl etkilediği net değil.
Şimdilik söylenebilecek olan: GPT-4.5 henüz insanlar kadar zeki değil – fakat bazı insanları kandırma konusunda hiç fena bir iş çıkarmıyor.
Buna da göz atın: Yapay zeka ve nezaket…