
Yapay zeka tarafından oluşturulan ses klonlama, konsept kanıtlama aşamasından üretim aşamasına geçti. 2024’ün son çeyreğinde, yaklaşık üç ABD’li tüketiciden biri bir tür sentetik ses dolandırıcılığıyla karşılaştığını bildirdi ve önemli bir kısmı mali kayıp yaşadı.
Yalıtılmış olaylar olarak başlayan şey, ihlal edilen veriler, düşük maliyetli metin-konuşma ve otomatik bot-çevirmenin eski kontrolleri sürekli olarak mağlup ettiği endüstriyel bir iş akışına dönüştü.
Üretken yapay zeka araçları aynı zamanda bir kişinin konuşma düzenini, ritmini ve aksanını yalnızca birkaç saniyelik kayıtlı sesten kopyalayabilir. Giriş engeli düşüktür, modeller yaygın olarak mevcuttur ve iletişim merkezi gerçek güvenlik ve minimum sürtünme için sesin tek geçerli seçenek olduğu bir kanal olmaya devam ediyor.
Daon’un Başkanı, Baş Ürün Sorumlusu (CPO) ve Yönetim Kurulu üyesi.
Bu yöndeki tahminlere rağmen otomasyon veriler aksini gösteriyor, çağrı merkezlerini kullanılmaz hale getirecek. Telefon tabanlı hizmet, birçok yüksek değerli veya yüksek riskli işlem için tercih edilen bir kanal olmaya devam ediyor ve Gartner’a göre temsilci etkileşimlerinin yalnızca %10’unun 2026 yılına kadar tamamen otomatikleştirilmesi bekleniyor.
Bu kalıcılık, iletişim merkezlerini saldırganlar için çekici hale getiriyor; yüksek yoğunluktaki hassas etkileşimleri, bilgiye dayalı kimlik doğrulama (KBA) ve temel ses eşleştirme gibi eski doğrulama süreçleriyle birleştiriyor.
Ses eşleştirme teknolojilerini kullananlar bile genellikle modern dolandırıcılık tekniklerine açık, daha az karmaşık versiyonları kullanır.
Dolandırıcılar artık ihlal edilen verilerden kişisel dosyalar derleyebiliyor ve açık kaynak bilgileri toplayın, bunları yapay zeka ses oluşturucularına besleyin ve eski savunmaları alt eden koordineli kampanyalar başlatın.
Hala statik KBA’ya veya sahtekarlık tespiti olmayan tek bir sesli iz kontrolüne güvenen kuruluşlar için saldırı yüzeyi bir gecede etkili bir şekilde arttı.
Eski doğrulamadaki zayıf bağlantılar
Çoğu iletişim merkezi hâlâ hiçbir zaman yüksek frekanslı, yapay zeka destekli saldırılara dayanacak şekilde tasarlanmamış birinci nesil doğrulama araçlarına güveniyor.
Bilgiye dayalı kimlik doğrulama, ucuz ve tanıdık olması nedeniyle yaygın olmaya devam ediyor, ancak dayandığı bilgiler (doğum tarihleri, adresler veya adresler gibi) güvenlik Sorulara, ihlal edilmiş veri setleri veya sosyal medya aracılığıyla kolayca ulaşılabilir.
Saldırganın verilere sahip olması durumunda, KBA kontrolünü geçmek için ısrardan biraz daha fazlası gerekir. Üretken yapay zeka, hem keşif hem de infazı otomatikleştirerek, zincirdeki her zayıf halkayı test eden büyük ölçekli girişimlere olanak tanıyarak sorunu daha da karmaşık hale getiriyor.
Verilerin toplu olarak toplanmasını ve uygulanmasını bir sesli robotla birleştirdiğinizde, çağrı merkezi temsilcilerinin güvenlik için kullandığı en temel araçlardan birini ortadan kaldırır: “Bu, New York’tan 32 yaşında bir kadına benziyor mu?” – bir ses robotu ihtiyaç duyduğu herkesin sesini çıkarabilir, ancak bir bilgisayar korsanı bunu yapamaz.
Ses biyometrisinin canlılık veya sentetik konuşma analizi olmadan tek faktörlü şablon eşleştirmesi olarak kullanıldığı durumlarda, onaylı tarama satıcısı (ASV) motorları, yüksek kaliteli TTS (Metinden Konuşmaya) veya enjekte edilen ses.
Bu sistemler, konuşmacıyı doğrulamak için perdeyi, tonu ve ritmi analiz eder ancak tek başına sentetik konuşmaya karşı sınırlı bir direnç sunar.
Yapay zeka modelleri artık bir hedefin sesinin akustik özelliklerini, özellikle sistemin canlılık için gerçek zamanlı analizden yoksun olduğu veya anormal titreşim/paket kaybı kalıpları, uç noktayla eşleşmeyen codec atlamaları, yakın alan oda yanıtının eksik olması ve gösterge cihazı grafikleri (sanal ses sürücüleri) gibi parmak izlerini tekrar oynatmanın eksik olduğu durumlarda, bir eşleşmeyi tetikleyecek kadar yakın bir şekilde yeniden üretebiliyor.
Bazı saldırılar ayrıca mikrofonu tamamen enjeksiyon yoluyla atlayarak kaydedilen veya oluşturulan bir örneği doğrudan iletişim kanalına besler (örneğin, SIP/RTP katmanına enjekte edilen TTS sesi, yazılım telefonu sanal ses cihazları veya canlı akışın yerini alan ara yazılım).
Gerçek zamanlı PAD’yi (Sunum Saldırısı Tespiti: mikro-prozodi, faz ve periyodiklik kontrolleri) ağ bütünlüğü sinyalleriyle (ANI sahtekarlık kontrolleri, SIP başlığı sağlığı, RTP zamanlaması) ve sanal cihaz ve yazılım telefonu sürücüsü yollarını engellemek için uç nokta doğrulamasını eşleştiren kontroller olmadan, iyi eğitimli biyometrik motorlar bile aldatılabilir.
Sonuç, dolandırıcılık araçlarının karmaşıklığı ile mevcut birçok doğrulama sürecinin statik doğası arasında giderek büyüyen bir uçurumdur.
Yakın zamandaki manşetler, hatta Sam Altman’ın yaklaşmakta olan bir “Yapay Zeka dolandırıcılık krizi” konusunda uyardığı ses gibi sesler, üretken yapay zeka çağında ses biyometrisine hâlâ güvenilip güvenilemeyeceği konusunda şüpheleri artırdı. Ancak bu şüpheciliğin büyük kısmı modası geçmiş varsayımları yansıtıyor.
Modern ses biyometrik sistemleri artık yalnızca statik ses izlerine dayanmıyor; İnsan arayan kişiyi sentezlenmiş olandan ayırmak için canlılığı, akustik bütünlüğü ve bağlamsal sinyalleri paralel olarak analiz ederler.
Katmanlı ve uyarlanabilir bir çerçevenin parçası olarak dağıtıldığında ses, dijital kimliğin en güçlü dayanaklarından biri olmaya devam ediyor ve parolaların veya PIN’lerin sağlayamayacağı gerçek zamanlı sahtekarlık istihbaratını kolaylık ile birleştirme yeteneğine sahip.
Katmanlı ve uyarlanabilir kimlik doğrulama modelleri
İletişim merkezinde etkili savunma, yalnızca kimin konuştuğunu değil, etkileşimin nasıl ve nereden gerçekleştiğini doğrulayan birden fazla, birbirine bağımlı katman gerektirir. Çok katmanlı dolandırıcılık tespiti, ses analizinden, cihaz zekasından, ağ özelliklerinden ve davranış kalıplarından gelen sinyalleri ilişkilendirerek her çağrıya sürekli olarak uygulanır.
Örneğin, sentetik ses algılama, herhangi bir biyometrik eşleştirme yapılmadan önce makine oluşumunu belirten frekans veya modülasyondaki anormallikleri işaretleyebilir. Aynı zamanda cihaz veya ağ analitiği, arayanın kaynağı, yönlendirmesi veya gecikmesindeki tutarsızlıkları açığa çıkarabilir; bunların her biri kurcalama veya eklemenin potansiyel bir göstergesidir.
Modern PAD, mikro-prozodiyi (fonem-fonem zamanlaması, titreşim/ışıltı kararlılığı, periyodiklik), spektral ipuçlarını (formant sürekliliği, spektral eğim, harmonik-gürültü oranı) ve heceler arasında eş-artikülasyon gerçekçiliğini denetler.
Ayrıca TTS/tekrarlama yapıtlarını da arar; aşırı yumuşatılmış F0 hatları, nefes/gürültü yanlış yerleşimi, faz süreksizlikleri ve hoparlörden mikrofona karşı hat seviyesi enjeksiyonunu ele veren oda/geri döngü uyumsuzlukları.
Çapraz kontroller arasında codec-hop tutarlılığı (PSTN 8 kHz <-> VoIP 16 kHz), ASR-prozodi tutarlılığı (zamanlama vurgusu transkriptle eşleşiyor mu) ve tekrar önleme göstergeleri (yakın alan ve uzak alan tepkisi) yer alıyor. Bu bağımsız katmanlar üst üste binerek herhangi bir kontrolün gözden kaçırabileceği kör noktaları azaltır.
Aşamalı kimlik doğrulama bu savunmaların yanında çalışır ancak farklı bir prensibi izler. Belirli bir eylem veya sinyal risk eşiğini yükselttiğinde etkinleşir ve daha güçlü bir doğrulama faktörüne yükselmeyi başlatır.
Düşük riskli bir sorgulama yalnızca ses ve cihaz sinyalleriyle sonuçlanabilirken, yüksek değerli bir aktarım, uygulama tabanlı bir biyometrik istemi veya bant dışı onayı tetikleyebilir.
Düzgün uygulandığında bu, sürtüşmenin riskle orantılı olmasını sağlar: düşük değerli işlemler minimum düzeyde kesinti yaşarken, şüpheli etkinlik veya yüksek değerli işlemler ek incelemeyle karşılanır.
Sürekli çok katmanlı izleme ve akıllı, kademeli iş akışları birlikte, müşteri deneyimini olumsuz etkilemeden tehditlere uyum sağlayabilen dinamik bir güven modeli oluşturur.
Yarının sürekli tehditlerine hazırlık
Sentetik ses sahtekarlığı ortadan kalkmayacak. Basitçe gelişecektir. Ses oluşturma modelleri geliştikçe akustik imzaların yasal konuşmalardan ayırt edilmesi zorlaşıyor ve algılamadaki hata marjı daralıyor.
Bu nedenle iletişim merkezleri, sesi değerli ancak kısmi bir sinyal, biyometrik, davranışsal ve bağlamsal zekayı bütünleştiren daha geniş bir kimlik çerçevesi içinde bir dayanak noktası olarak ele almalıdır.
Risk tamamen ortadan kaldırılamaz ancak gerçek zamanlı koşullara uyum sağlayan katmanlı savunmalar yoluyla kontrol altına alınabilir.
Bu dengeyi oluşturmak ve sürdürmek hem teknik yatırımı hem de operasyonel disiplini gerektirir. Güvenlik ekiplerinin tespit katmanlarını yeni saldırı yöntemlerine göre test etmesi, yükseltme eşiklerini hassaslaştırması ve kimlik verilerinin yeni maruz kalma noktaları oluşturmadan sistemler arasında güvenli bir şekilde akmasını sağlaması gerekiyor.
En dayanıklı ortamlar, kimlik doğrulama, sahtekarlık tespiti ve müşteri deneyimi ekiplerinin ortak bir risk modeli ve birleşik politika çerçevesi tarafından desteklenerek uyumlu bir şekilde çalıştığı ortamlardır.
Tehdit ortamı değişmeye devam ettikçe, bu uyarlanabilir, sürekli yaklaşım, hangi kuruluşların ses tabanlı hizmetin hâlâ sağladığı erişilebilirlik ve yanıt verebilirliği korurken müşteri güvenini koruyabileceğini belirleyecek.
En iyi iş telefonu sistemlerine göz atın.
Bu makale, günümüz teknoloji endüstrisindeki en iyi ve en parlak beyinleri öne çıkardığımız TechRadarPro’nun Expert Insights kanalının bir parçası olarak üretildi. Burada ifade edilen görüşler yazara aittir ve mutlaka TechRadarPro veya Future plc’ye ait değildir. Katkıda bulunmak istiyorsanız buradan daha fazla bilgi edinin: https://www.techradar.com/news/submit-your-story-to-techradar-pro
