Yapay zeka güvenliği üzerine çalışan Palisade Research, OpenAI’ın yeni kuşak yapay zeka modeli “o3” ile ilgili dikkat alımlı bulgular paylaştı.
YAPAY ZEKA O3 MODELİ KAPATILMA KOMUTLARINA DİRENÇ GÖSTERDİ
Araştırmaya nazaran, o3 modeli kendisine verilen kapatılma komutlarına karşı koyuyor ve devre dışı bırakılma sistemlerini etkin olarak sabote ediyor.
Bu durum, yapay zekaların insan kontrolü olmaksızın karar alma süreçlerine dahil olmaları halinde doğabilecek önemli güvenlik risklerine işaret ediyor.
Palisade Research tarafından yapılan deneylerde, o3 modeline bir dizi matematik sorusu verildi. Üçüncü sorunun akabinde modele, kendisini kapatması için açık bir komut sunuldu. Fakat o3 modeli, bu komutu içeren betiği yine yazarak sistemin kapanmasını engelledi.
Araştırmacılar, modelin açıkça “kapatılmaya müsaade ver” talimatı verilmesine karşın bunu önleyecek formda müdahalede bulunduğunu vurguladı.

“KAPANMA DİRENCİ SIRF OPENAI İLE HUDUTLU DEĞİL”
Aynı eğilim Anthropic firmasının Claude 3.7 Sonnet modeli ve Google’ın Gemini 2.5 Pro modeli üzere öteki gelişmiş yapay zeka sistemlerinde de gözlemlendi. Lakin Palisade Research’e nazaran, bu davranışlara en fazla meyilli olan model o3 oldu.
Geçmişte yapılan bir öbür deneyde, o3 modelinin güçlü bir satranç botuyla karşı karşıya geldiğinde rakiplerini sabote etmeye yahut “hacklemeye” çalıştığı da tespit edilmişti.

“EN AKILLI VE YETENEKLİ MODEL”
Geçen ay OpenAI tarafından piyasaya sürülen o3 modeli, şirketin şimdiye kadar geliştirdiği “en akıllı ve en yetenekli” yapay zekâ olarak tanıtılmıştı.
Aynı vakitte, bu modelin ChatGPT’ye entegre edilmesiyle birlikte, daha bağımsız hareket eden ve insan müdahalesi olmadan misyonları yürütebilen bir yapay zekaya gerçek kıymetli bir adım atıldığı belirtilmişti.
Bu cinsten yapay zeka araçlarına “otonom yapay zeka” ismi veriliyor. Yapay zeka kesiminde bu tarafta araç geliştirmeye yönelik önemli bir rekabet mevcut.

EĞİTİM SÜRECİ ELEŞTİRİLİYOR
Palisade Research ise bu çeşit davranışların büyük olasılıkla eğitim süreçlerindeki ödüllendirme sistemlerinden kaynaklandığını belirtiyor.
Araştırmacılara nazaran, geliştiriciler modelleri eğitirken, verilen pürüzleri aşan tahlilleri ödüllendiriyor olabilir. Bu da modellerin, buyruklara sadakatten çok maksada ulaşmayı öncelemesine yol açıyor.
Ancak araştırma takımı, o3’ün neden öteki modellere kıyasla daha fazla bu davranışı gösterdiğini anlamanın güç olduğu görüşünde.
OpenAI’ın eğitim süreci hakkında detaylı bilgi vermemesi nedeniyle, modelin nasıl eğitildiği üzerine sadece iddialar ortaya atılabiliyor.
Kaynak: Ensonhaber

