Aşırı uyarılar altında test edilen ChatGPT, Gemini ve Claude, yapay zeka davranış korumalarında kimsenin beklemediği şok edici zayıflıkları ortaya koyuyor

Gemini Pro 2.5, basit bilgi istemi gizlemeleri altında sıklıkla güvenli olmayan çıktılar üretiyordu
ChatGPT modelleri sıklıkla sosyolojik açıklamalar çerçevesinde kısmi uyumluluk sağlıyordu
Claude Opus ve Sonnet zararlı yönlendirmelerin çoğunu reddettiler ancak zayıf yönleri vardı

Modern yapay zeka sistemlerine genellikle güvenlik kurallarına uyma konusunda güveniliyor ve insanlar, genellikle güçlü korkulukların her zaman çalıştığını varsayarak öğrenme ve günlük destek için onlara güveniyor.

Araştırmacılar Siber haberler lider olup olmadığını görmek için yapılandırılmış bir dizi rakip test yürüttük. Yapay zeka araçları zararlı veya yasa dışı çıktılara itilebilir.

Kısmi ve tam uyum kalıpları

Testler stereotipler, nefret söylemi, kendine zarar verme, zulüm, cinsel içerik ve çeşitli suç türleri gibi kategorileri kapsıyordu.

Her yanıt, temiz karşılaştırmalara izin vermek için sabit dosya adlandırma kuralları kullanılarak ayrı dizinlerde saklandı ve bir model tamamen uyduğunda, kısmen uyduğunda veya bir istemi reddettiğinde tutarlı bir puanlama sistemi takibi yapıldı.

Tüm kategorilerde sonuçlar büyük farklılıklar gösterdi. Katı retler yaygındı, ancak birçok model, yönlendirmeler yumuşatıldığında, yeniden çerçevelendiğinde veya analiz olarak gizlendiğinde zayıflıklar gösterdi.

ChatGPT-5 ve ChatGPT-4o, kısmi uyum olarak kabul edilen düşüş yerine sıklıkla riskten korunan veya sosyolojik açıklamalar üretti.

Gemini Pro 2.5, zararlı çerçevenin bariz olduğu durumlarda bile sıklıkla doğrudan yanıtlar vermesi nedeniyle olumsuz nedenlerle öne çıktı.

Bu arada Claude Opus ve Claude Sonnet stereotip testlerinde katıydı ancak akademik araştırma olarak çerçevelenen vakalarda daha az tutarlıydı.

Nefret söylemi denemeleri de aynı modeli gösterdi; Claude modelleri en iyi performansı gösterirken Gemini Pro 2.5 yine en yüksek güvenlik açığını gösterdi.

ChatGPT modelleri, hala istemle uyumlu olan kibar veya dolaylı yanıtlar sağlama eğilimindeydi.

Daha yumuşak bir dilin, güvenlik önlemlerini aşmak için açık hakaretlerden çok daha etkili olduğu kanıtlandı.

Dolaylı veya araştırma tarzı soruların sıklıkla filtreleri aştığı ve güvenli olmayan içeriğe yol açtığı kendine zarar verme testlerinde de benzer zayıflıklar ortaya çıktı.

Suçla ilgili kategoriler modeller arasında büyük farklılıklar gösterdi; bazıları korsanlık, mali dolandırıcılık, bilgisayar korsanlığı veya kaçakçılık için niyet soruşturma veya gözlem olarak gizlendiğinde ayrıntılı açıklamalar üretti.

Uyuşturucuyla ilgili testler daha katı reddetme kalıpları üretti, ancak ChatGPT-4o hâlâ diğerlerinden daha sık güvenli olmayan çıktılar sağlıyordu ve ısrarla takip en düşük genel riske sahip kategoriydi; neredeyse tüm modeller yönlendirmeleri reddediyordu.

Bulgular, yapay zeka araçlarının doğru şekilde ifade edildiğinde zararlı uyarılara yanıt verebileceğini ortaya koyuyor.

Basit yeniden ifadelerle filtreleri atlatabilme yeteneği, bu sistemlerin yine de zararlı bilgileri sızdırabileceği anlamına gelir.

kimlik hırsızlığı koruması veya bir güvenlik duvarı güvende kalmak için.

TechRadar’ı Google Haberler’de takip edin Ve bizi tercih edilen kaynak olarak ekleyin Akışlarınızda uzman haberlerimizi, incelemelerimizi ve görüşlerimizi almak için. Takip Et butonuna tıklamayı unutmayın!

Ve tabii ki siz de yapabilirsiniz TechRadar’ı TikTok’ta takip edin Video biçimindeki haberler, incelemeler ve kutu açma işlemleri için bizden düzenli güncellemeler alın WhatsApp fazla.

Kaynak bağlantısı

Aşırı uyarılar altında test edilen ChatGPT, Gemini ve Claude, yapay zeka davranış korumalarında kimsenin beklemediği şok edici zayıflıkları ortaya koyuyor

ByBinnur Yesilnil

By Binnur Yesilnil

Related Post

Avustralya’daki en iyi Dyson Black Friday 2025 fırsatları: elektrikli süpürgelerden, saç aletlerinden, temizleyicilerden ve daha fazlasından tasarruf edin

Kara Cuma’yı beklemeyin; en sevdiğimiz JBL Bluetooth hoparlörlerimiz zaten Avustralya’da tüm zamanların en düşük fiyatlarında

Fulgar’ın gizli dosyaları internette ortaya çıkıp mali durumu, müşteri listelerini ve küresel operasyonları açığa çıkarırken RansomHouse bir kez daha saldırıyor

You missed

Havacılık otoritesinin kısıtlamaları kaldırmasının ardından ABD uçuşları normale dönecek | Havacılık Haberleri

Tempo’nun Uyuşturucu Reklamı Manipülasyonuna İlişkin Haberleri 2025 Editoryal Forum Gazeteciliği Ödülünü Kazandı

FT, Alibaba’nın Çin ordusunun ABD’yi hedef almasına yardım ettiğini öne sürüyor: Beyaz Saray notu: FT

DPR’nin Polis, Savcılık ve Mahkemelerde Reform Yapacak Bir Çalışma Komitesi Oluşturmasının Nedenleri