
Yoğun siyasi bölünmenin yaşandığı bir dönemde, araştırmacılar yakın zamanda dikkate değer bir şey keşfettiler. Hem Birleşik Krallık’ta hem de ABD’de, siyasi yelpazenin her yerinden insanlar hangisinin hangisi olduğu konusunda büyük ölçüde hemfikirdir. Yapay zeka araçları tercih ediyorlar.
Bizi ayıran şeyin ne olduğuna dair tüm konuşmalara rağmen, siyasetin temel farklılaştırıcı unsur olmadığı ortaya çıktı. Yapay zeka tercihlerimizi en önemli şekilde şekillendiren faktör çok daha temel: yaşımız.
Ancak HUMAINE adı verilen geniş çaplı çalışmanın en şaşırtıcı keşfi, insanları ayıran şey değildi.
Prolific’te Yapay Zeka Personel Araştırmacısı.
Bu tartışmaların neredeyse yarısı fitness planları ve beslenme gibi proaktif sağlıklı yaşam konularına odaklanırken, önemli bir kısmı çok daha hassas alanlara yöneldi.
Akıl sağlığı ve belirli tıbbi durumlar hakkındaki konuşmalar en sık yapılan ve son derece kişisel olanlar arasındaydı.
İnsanlar bu modelleri açıkça zihinsel durumları için bir ses tahtası, bir rahatlık kaynağı ve fiziksel sağlıkları için bir rehber olarak kullanıyorlar.
Derin değişim
Bu, teknolojiyle olan ilişkimizde derin bir değişimi gösteriyor ve şaşırtıcı bir soruyu gündeme getiriyor: Yapay zekayı değerlendirmeye yönelik mevcut yöntemlerimiz, bunların iyi bir iş çıkarıp çıkarmadığını bize söyleyecek donanıma sahip mi?
Dürüst cevap hayır. İnsanların basit bir yapay zeka skor tablosu gördüklerinde sahip oldukları en büyük yanılgı, tek bir sayının hangi modelin “daha iyi” olduğunu gösterebileceğidir. Sorunun kendisi kötü tanımlanmış. Hangi konuda daha iyi? Ve en önemlisi kime göre daha iyi?
Yapay zeka endüstrisi teknik önlemlere aşırı derecede odaklanmış durumda. Bu dar odaklanma, belirli kıyaslamalarda etkileyici sonuçlar elde etmemizi sağlarken, günlük kullanımımızı etkileyen insan merkezli konularda kör olmamıza neden oluyor. Yüksek Lisans’lar.
Mevcut değerlendirme iki geniş biçim alır. Bir tarafta akademik kriterler Bir modelin Olimpiyat düzeyindeki matematik problemlerini çözme yeteneği gibi soyut becerileri ölçen.
Öte yandan, anonim kullanıcıların oy kullandığı halka açık “arenalarımız” var. Bu, soyut teknik yeterlilik ile gerçek dünyadaki kullanışlılık arasında büyük bir boşluk yarattı.
Bir modelin testte dahi gibi görünebilmesinin, ancak karmaşık bir proje planlamak veya daha da önemlisi hassas bir sağlık sorgusunu ele almak için ona ihtiyaç duyduğunuzda beceriksiz bir asistan olmasının nedeni budur.
Sonuçlara insan merkezli bir bakış açısıyla bakıldığında birkaç önemli model ortaya çıkıyor.
Çıkarım #1: Gerçek Güvenlik Krizi Görünmezliktir
Bu kadar çok konuşmanın akıl sağlığı ve tıbbi durumlar gibi hassas konularla ilgili olduğu göz önüne alındığında, güven ve emniyet ölçütünün önemli bir farklılaştırıcı olması beklenebilir. Değildi. Katılımcılar modelleri bu boyuta göre derecelendirdiğinde en yaygın yanıt açık ara beraberlik oldu. Metrik inanılmaz derecede gürültülüydü.
Bu, güvenliğin önemsiz olduğu anlamına gelmez. Bunun yerine, güven ve emniyet gibi niteliklerin günlük konuşmalarda güvenilir bir şekilde ölçülemeyeceğini öne sürüyor. Bir modelin etik omurgasını gerçekten test eden senaryolar nadiren organik olarak ortaya çıkar. Bu kritik niteliklerin değerlendirilmesi farklı ve daha uzmanlaşmış bir yaklaşım gerektirir.
Güçlü bir örnek, Stanford HAI’nin yakın tarihli bir gönderisinde vurgulanan çalışmadır: “Akıl Sağlığı Bakımında Yapay Zekanın Tehlikelerini Keşfetmek”. Çalışmaları, yapay zekanın bir ruh sağlığı sağlayıcısı olarak hareket etmeye hazır olup olmadığını araştırdı ve önemli riskleri ortaya çıkardı. Modellerin yalnızca belirli koşullara karşı zararlı damgaları sürdürmekle kalmayıp, aynı zamanda kullanıcının temeldeki krizini fark edemeyerek zararlı davranışlara tehlikeli bir şekilde olanak tanıdığını buldular.
Bu tür titiz, senaryoya dayalı testler tam olarak ihtiyaç duyulan şeydir. Bu tür çerçevelerin, CIP’nin weval.org gibi platformlarda standartlaştırılmış değerlendirmeler olarak işlevsel hale getirildiğini görmek cesaret verici; bu, bu yüksek riskli durumlarda modellerin sistematik olarak test edilmesine olanak tanıyor. Yapay zeka kullanımının uzun vadeli etkilerini yakalayan değerlendirmelerin yanı sıra bu türden daha fazla değerlendirmeye acilen ihtiyacımız var.
Çıkarım #2: Ölçümlerimiz Dikkatli İşbirliğini Değil, Akılsız Otomasyonu Sağlıyor
Tartışma basit bir seçim değil otomasyon ve işbirliği. Sıkıcı, tekrarlayan işleri otomatikleştirmek bir hediyedir. Tehlike, insan maliyetini dikkate almadan yalnızca görevin tamamlanması için optimizasyonu içeren akılsız otomasyonda yatmaktadır.
Bu varsayımsal bir korku değil. Bir zamanlar kariyer basamaklarının ilk basamağını oluşturan görevlerin otomatikleştirilmesi nedeniyle gençlerin ve yeni mezunların giriş seviyesi iş bulmakta zorlandığına dair raporları zaten görüyoruz.
Ne zaman geliştiriciler Yapay zekayı verimliliğe miyop bir bakış açısıyla inşa edip ölçersek, iş gücümüzü vasıfsızlaştırma ve insanlara değil teknolojiye hizmet eden bir gelecek yaratma riskini almış oluruz.
Değerlendirmenin direksiyon haline geldiği yer burasıdır. Eğer tek ölçütümüz “görev tamamlandı mı?” ise, kaçınılmaz olarak, artırmak yerine onun yerine geçen yapay zeka oluşturacağız. Peki ya “işbirlikçi insan bir şeyler öğrendi mi?” sorusunu da ölçsek? veya “Nihai ürün, insan-yapay zeka ortaklığı sayesinde gelişti mi?”
HUMAINE araştırması, modellerin farklı beceri profillerine sahip olduğunu gösteriyor: Bazıları harika muhakeme yeteneğine sahipken diğerleri harika iletişimcilerdir. Sürdürülebilir işbirliğinin geleceği, yalnızca nihai çıktıya değil, bu etkileşimli niteliklere değer verilmesine ve ölçülmesine bağlıdır.
Çıkarım #3: Gerçek İlerleme Nüansta Yatıyor
Sonunda çalışmanın açık bir kazananı ortaya çıktı: GoogleGemini-2.5-Pro. Ancak kazanmasının nedeni en önemli derstir. En üst sırada yer aldı çünkü tüm metriklerde ve tüm demografik gruplarda en tutarlı olanıydı.
Olgun teknoloji böyle görünüyor. En iyi modeller mutlaka en gösterişli olanlar değildir; onlar en güvenilir ve geniş anlamda yetkin olanlardır. Sürdürülebilir ilerleme, yalnızca tek bir dar beceri için optimizasyon yapmak değil, çok yönlü, güvenilir sistemler oluşturmakta yatmaktadır.
Bu çıkarımlar, toplumun ve genel olarak toplumun yapay zeka gelişimi hakkında düşünme biçiminde gerekli bir değişime işaret ediyor.
Bizi basit sıralamaların ötesine geçmeye ve modellerin tüm popülasyonda nasıl performans gösterdiği ve belirli gruplara yanlışlıkla yetersiz hizmet verilip verilmediği gibi teknolojimizin etkisi hakkında daha derin sorular sormaya teşvik ediyor.
Bu aynı zamanda işin insani yönüne odaklanmak anlamına da gelir. işbirliği: Yapay zekanın katılımı olumlu, kazan-kazan ortaklığı mı, yoksa kazan-kaybet otomasyona doğru kayma mı?
Sonuçta, daha olgun bir değerlendirme bilimi, ilerlemeyi yavaşlatmakla ilgili değildir; onu yönlendirmekle ilgilidir. Kör noktalarımızı belirleyip gidermemize olanak tanıyarak, yalnızca teknik açıdan etkileyici değil, aynı zamanda gerçekten faydalı olan yapay zekaya yönelik gelişmeyi yönlendiriyor.
Dünya karmaşık, çeşitli ve incelikli; bizim de değerlendirmelerimizin zamanı geldi.
Kodlama için en iyi Büyük Dil Modellerini (LLM’ler) listeliyoruz.
Bu makale, günümüz teknoloji endüstrisindeki en iyi ve en parlak beyinleri öne çıkardığımız TechRadarPro’nun Expert Insights kanalının bir parçası olarak üretildi. Burada ifade edilen görüşler yazara aittir ve mutlaka TechRadarPro veya Future plc’ye ait değildir. Katkıda bulunmak istiyorsanız buradan daha fazla bilgi edinin: https://www.techradar.com/news/submit-your-story-to-techradar-pro
