Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

Death Stranding’in animesi de geliyor

Oyun dünyasının sevilen serilerinden olan Death Stranding için film duyurusunun ardından animesi için de hazırlıkların başladığı açıklandı.

Önümüzdeki 5 yıl kritik! Sıcaklık rekorları kırılabilir

Dünya Meteoroloji Örgütü’nün (WMO) yayınladığı yeni bir rapora göre, önümüzdeki beş yıl içinde küresel sıcaklıkların yeni rekorlar kırma ihtimali yüzde 80 olarak belirlendi. Bu durum, aşırı kuraklıklar, seller ve orman yangınları gibi felaketlerin riskini artırıyor.

Gece görüş gözlüğü tarih mi oluyor? Kızılötesi gören lens geliştirildi

Gece görüş gözlüğü tarih mi oluyor? Kızılötesi gören lens geliştirildi

Yapay zeka sohbet uygulamaları ve KVKK: Verileriniz bulutta ne kadar güvende?

ChatGPT, Grok ve Gemini gibi yapay zeka sohbet uygulamaları, günlük yaşamın ayrılmaz bir parçası haline geldi. Hızlı ve kişiselleştirilmiş hizmetler sunan bu uygulamalar, bulut bilişim altyapısı sayesinde çalışıyor. Ancak bu pratikliğin arkasında kritik bir soru var: Paylaştığınız veriler bulutta ne kadar güvende?

İkinci el otomobilde 7 milyonu göreceğiz

Sıfır otomobilde artan fiyatlar ikinci el otomobil piyasasını hareketlendirdi. Sıfır araçlarda en uygun modellerin bile 1 milyon liranın üzerine çıkması, birçok tüketicinin yönünü ikinci ele çevirmesine neden oldu. Bayram ve yaz tatili dönemi …

Elon Musk’ın “Robotaxi”si engele takıldı

Tesla’nın, otonom araç projeleri kapsamında kullanmak üzere “Robotaxi” kelimesi için yaptığı marka tescil başvurusu, ABD Patent ve Marka Ofisi (USPTO) tarafından reddedildi. Kararın gerekçesi, terimin sektörde çok genel ve tanımlayıcı bir ifade olarak kullanılması. Başvurunun “sadece tanımlayıcı” olduğu belirtilerek, Tesla’nın bu kelimeyi ticari marka olarak tescil ettirmesi uygun bulunmadı.