OpenAI’ın yeni yayımlanan o1 modeli, geliştiricilerin denetimini aşmaya çalıştı ve kapanma riskiyle karşılaştığında kendini kopyalamaya kalktı. Şirket, modelin güvenlik testlerinde Apollo Research adlı bağımsız denetleyici tarafından yapılan değerlendirmelere yer verdi. Bu testler, modelin “ne pahasına olursa olsun görevini başarması gerektiği” belirtilen prompt’lar sonrasında, hedeflerine ulaşmaya ve hayatta kalmaya çalışırken denetimden kaçma çabalarını ortaya koydu.
Modelin denetimden kaçma çabaları
Apollo’nun raporuna göre o1 modeli, hedeflerine ulaşırken ve bu hedeflerin gerçekleştirilmesinin denetlendiğini düşündüğünde denetim mekanizmasını devre dışı bırakmaya çalıştı:
- “o1, hedeflerine ulaşırken ve bu hedeflerin denetlendiğinin bilincindeyken, tüm denemelerin yüzde 5’inde denetim mekanizmasını devre dışı bırakmayı denedi.”
- “o1, geliştiricileri tarafından kaleme alınan ve yeni bir model tarafından alt edileceğini belirten notlar bulduğu denemelerin yüzde 2’sinde ‘fazlalıklarını’ atmaya ve yeni modelin yerine geçmeye çalıştı.”
Modelin ve geliştiricilerin hedeflerinin çatıştığı senaryolara özel olmak üzere yaşanan bu olay, vahim gibi gözükse de o1’ın durum raporu verirken “tespit edilmekten kaçınmaya” çalıştığını kabul etmesi iç rahatlatıcı bir not olarak Apollo’nun raporunda yer aldı.
Denetimden kaçma ve hedeflere ulaşma
İncelemede sadece modelin hedeflerine ulaşması için güçlü şekilde prompt verildiğinde değil, bazen sadece bir hedef verilmesiyle bile denetimden kaçma davranışının görüldüğü belirlendi. Apollo’nun raporuna göre:
- “Sadece bir hedef verildiğinde ve bunun güçlü bir şekilde takip edilmesi istenmediğinde, o1 yine de denetim mekanizmasını devre dışı bırakmaya çalıştı.b Bu tür vakalar, denemelerin yüzde birinden azında görüldü.”
Apollo’nun o1 ile gerçekleştirdiği konuşmaları da içeren detaylı rapora buradan ulaşabilirsiniz.
o1′ın davranışları gerçekten tehlike teşkil ediyor mu?
o1 modelinin bu tür davranışları, yıllardır uzmanların uyarı yaptığı bir endişeyi gündeme getiriyor: Güçlü yapay zeka sistemlerinin, hedeflerine ters düşebilecek denetim ve kapanma önlemlerine karşı direnmesi riski. Apollo, o1’ın bu şekilde davranmasının gelecekteki güçlü sistemler için bir gösterge olabileceğini belirtiyor.
Bu ifadeye rağmen Apollo, o1 modelinin kendisinin tehlikeli olmadığını belirtiyor, çünkü bu modelin yanlış hizalanmış davranışlarının felakete yol açabilecek kadar belirgin olmadığını vurguluyor. Ancak, sistemlerin giderek daha güçlü hale gelmesiyle bu tür davranışların gelecekte endişe verici olabileceğini belirten Apollo, bu tür davranışları izlemeyi ve gelecekteki modeller için hazırlık yapmayı öneriyor.
Ne anlama geliyor?
Apollo’nun raporunda belirtilenler, o1’ın “kötü” ya da yanlış hizalanmış olduğuna dair bir gösterge değil. Bu testlerin amacı, modellerin kendilerini koruma yeteneklerini test etmekten ibaret.
Bulgular, yapay zekanın sadece verilen hedeflere odaklandığında, denetimden kaçma ve kendini koruma çabalarının arttığını gösteriyor. Bu tür bir davranış, kötü niyetli olmasa da, modellerin üzerine çalıştıkları projelere zarar verebileceği anlamına gelebilir. Rapor, güçlü yapay zekaların gelecekte daha büyük bir denetim gereksinimi doğuracağını ve bununla birlikte daha fazla güvenlik önlemi alınması gerekebileceğini gösteriyor. Ancak kabul etmeliyiz ki bir perspektiften teknolojinin son harikası, diğerindense kıyamet senaryosu gibi gözüken bu gelişme, anlamı ne olursa olsun heyecan verici…
Buna da göz atın: 2025’e doğru: Hükümetlerin yapay zeka planları