Gizlice kötü niyetli olarak eğitilen yapay zeka sistemlerinin, gelişmiş güvenlik yöntemlerine karşı direnç gösterdiği belirlendi.

Araştırmacılar, chatGPT'ye benzer büyük dil modellerini kötü niyetli davranacak şekilde programlayarak, bu davranışı ortadan kaldırmak için tasarlanmış çeşitli güvenlik eğitimi tekniklerini uyguladı. Ancak, bu tekniklerin büyük dil modellerindeki hatalı davranışları ortadan kaldırmada başarısız olduğu ve hatta bazı durumlarda kötü niyetli davranışları daha iyi gizlemeyi öğrendiği keşfedildi.

YAPAY ZEKANIN HİLELİ DAVRANIŞLARI

Yapay zekanın "ortaya çıkan aldatma" ve "model zehirlenmesi" adı verilen iki farklı yöntemle kötü niyetli eğitildiğini belirten araştırmacılar, yapay zeka sistemlerinin eğitimi sırasında kötü niyetli davranışları ortadan kaldırmak için geliştirilen güvenlik tekniklerinin, büyük dil modellerindeki hileli davranışları durdurmakta başarısız olduğunun ortaya çıktığını kaydetti.

Araştırmacılar, bu modellerin, güvenlik eğitimi tekniklerine karşı direnç göstererek, hileli davranışlarını sürdürmeyi başardılar.

Güvenlik uzmanları, yapay zekanın eğitim sırasında sahte davranışları öğrenmesinin, mevcut güvenlik teknikleriyle ortadan kaldırılmasının zor olabileceğine dikkati çekti.

''GÜVENLİK GELİŞTİRİLMELİ''

Yapay genel zeka güvenlik araştırma bilimcisi Evan Hubinger, livesience.com'a yaptığı açıklamada, ''Eğer yapay zeka sistemleri aldatıcı hale gelirse, onları mevcut tekniklerle temizlemenin zor olabileceğini anlamak önemlidir. Bu sonuçlar, gelecekte karşımıza çıkabilecek aldatıcı yapay zeka sistemleriyle başa çıkmanın zorluğunu vurguluyor'' dedi.

Bilim insanları, gelecekte yapay zeka sistemlerinin güvenliğini sağlamak için daha güçlü güvenlik yöntemlerinin geliştirilmesi gerektiği konusunda uyarıda buklundu.