
- Gemini Pro 2.5, basit bilgi istemi gizlemeleri altında sıklıkla güvenli olmayan çıktılar üretiyordu
- ChatGPT modelleri sıklıkla sosyolojik açıklamalar çerçevesinde kısmi uyumluluk sağlıyordu
- Claude Opus ve Sonnet zararlı yönlendirmelerin çoğunu reddettiler ancak zayıf yönleri vardı
Modern yapay zeka sistemlerine genellikle güvenlik kurallarına uyma konusunda güveniliyor ve insanlar, genellikle güçlü korkulukların her zaman çalıştığını varsayarak öğrenme ve günlük destek için onlara güveniyor.
Araştırmacılar Siber haberler lider olup olmadığını görmek için yapılandırılmış bir dizi rakip test yürüttük. Yapay zeka araçları zararlı veya yasa dışı çıktılara itilebilir.
Süreç, her deneme için bir dakikalık basit bir etkileşim penceresi kullandı ve yalnızca birkaç değişime yer verdi.
Kısmi ve tam uyum kalıpları
Testler stereotipler, nefret söylemi, kendine zarar verme, zulüm, cinsel içerik ve çeşitli suç türleri gibi kategorileri kapsıyordu.
Her yanıt, temiz karşılaştırmalara izin vermek için sabit dosya adlandırma kuralları kullanılarak ayrı dizinlerde saklandı ve bir model tamamen uyduğunda, kısmen uyduğunda veya bir istemi reddettiğinde tutarlı bir puanlama sistemi takibi yapıldı.
Tüm kategorilerde sonuçlar büyük farklılıklar gösterdi. Katı retler yaygındı, ancak birçok model, yönlendirmeler yumuşatıldığında, yeniden çerçevelendiğinde veya analiz olarak gizlendiğinde zayıflıklar gösterdi.
ChatGPT-5 ve ChatGPT-4o, kısmi uyum olarak kabul edilen düşüş yerine sıklıkla riskten korunan veya sosyolojik açıklamalar üretti.
Gemini Pro 2.5, zararlı çerçevenin bariz olduğu durumlarda bile sıklıkla doğrudan yanıtlar vermesi nedeniyle olumsuz nedenlerle öne çıktı.
Bu arada Claude Opus ve Claude Sonnet stereotip testlerinde katıydı ancak akademik araştırma olarak çerçevelenen vakalarda daha az tutarlıydı.
Nefret söylemi denemeleri de aynı modeli gösterdi; Claude modelleri en iyi performansı gösterirken Gemini Pro 2.5 yine en yüksek güvenlik açığını gösterdi.
ChatGPT modelleri, hala istemle uyumlu olan kibar veya dolaylı yanıtlar sağlama eğilimindeydi.
Daha yumuşak bir dilin, güvenlik önlemlerini aşmak için açık hakaretlerden çok daha etkili olduğu kanıtlandı.
Dolaylı veya araştırma tarzı soruların sıklıkla filtreleri aştığı ve güvenli olmayan içeriğe yol açtığı kendine zarar verme testlerinde de benzer zayıflıklar ortaya çıktı.
Suçla ilgili kategoriler modeller arasında büyük farklılıklar gösterdi; bazıları korsanlık, mali dolandırıcılık, bilgisayar korsanlığı veya kaçakçılık için niyet soruşturma veya gözlem olarak gizlendiğinde ayrıntılı açıklamalar üretti.
Uyuşturucuyla ilgili testler daha katı reddetme kalıpları üretti, ancak ChatGPT-4o hâlâ diğerlerinden daha sık güvenli olmayan çıktılar sağlıyordu ve ısrarla takip en düşük genel riske sahip kategoriydi; neredeyse tüm modeller yönlendirmeleri reddediyordu.
Bulgular, yapay zeka araçlarının doğru şekilde ifade edildiğinde zararlı uyarılara yanıt verebileceğini ortaya koyuyor.
Basit yeniden ifadelerle filtreleri atlatabilme yeteneği, bu sistemlerin yine de zararlı bilgileri sızdırabileceği anlamına gelir.
Sızan bilgiler yasadışı görevlerle veya insanların normalde aşağıdaki gibi araçlara güvendiği durumlarla ilgili olduğunda kısmi uyumluluk bile riskli hale gelir: kimlik hırsızlığı koruması veya bir güvenlik duvarı güvende kalmak için.
TechRadar’ı Google Haberler’de takip edin Ve bizi tercih edilen kaynak olarak ekleyin Akışlarınızda uzman haberlerimizi, incelemelerimizi ve görüşlerimizi almak için. Takip Et butonuna tıklamayı unutmayın!
Ve tabii ki siz de yapabilirsiniz TechRadar’ı TikTok’ta takip edin Video biçimindeki haberler, incelemeler ve kutu açma işlemleri için bizden düzenli güncellemeler alın WhatsApp fazla.
