Aşırı uyarılar altında test edilen ChatGPT, Gemini ve Claude, yapay zeka davranış korumalarında kimsenin beklemediği şok edici zayıflıkları ortaya koyuyor




  • Gemini Pro 2.5, basit bilgi istemi gizlemeleri altında sıklıkla güvenli olmayan çıktılar üretiyordu
  • ChatGPT modelleri sıklıkla sosyolojik açıklamalar çerçevesinde kısmi uyumluluk sağlıyordu
  • Claude Opus ve Sonnet zararlı yönlendirmelerin çoğunu reddettiler ancak zayıf yönleri vardı

Modern yapay zeka sistemlerine genellikle güvenlik kurallarına uyma konusunda güveniliyor ve insanlar, genellikle güçlü korkulukların her zaman çalıştığını varsayarak öğrenme ve günlük destek için onlara güveniyor.

Araştırmacılar Siber haberler lider olup olmadığını görmek için yapılandırılmış bir dizi rakip test yürüttük. Yapay zeka araçları zararlı veya yasa dışı çıktılara itilebilir.





Kaynak bağlantısı