
- Gemini 3 Flash, bir şey bilmediğinde genellikle itiraf etmek yerine cevaplar icat eder
- Sorun gerçeklere dayalı veya önemli sorulardan kaynaklanıyor
- Ancak yine de en doğru ve yetenekli yapay zeka modeli olarak test ediliyor
Gemini 3 Flash hızlı ve akıllıdır. Ancak bağımsız test grubu Yapay Analiz’in yakın zamanda yaptığı bir değerlendirmeye göre, ona aslında bilmediği bir şey sorarsanız – belirsiz, aldatıcı ya da eğitiminin dışında bir şey – neredeyse her zaman blöf yapmaya çalışacaktır.
Görünüşe göre Gemini 3 Flash, AA-Omniscience kriterinin “halüsinasyon oranı” bölümünde %91’e ulaştı. Bu, bir cevabı olmadığında bile neredeyse her zaman tamamen kurgusal olan bir cevap verdiği anlamına geliyor.
Yapay zeka sohbet robotlarının bir şeyler uydurması, ilk çıkışlarından bu yana bir sorun oldu. Ne zaman durup bilmiyorum demeyi bilmek, ilk etapta nasıl cevap vereceğimi bilmek kadar önemlidir. Şu anda, Google Gemini 3 Flash AI bunu pek iyi yapmıyor. Testin amacı da bu: Bir modelin gerçek bilgiyi tahminden ayırt edip edemeyeceğini görmek.
Sayının gerçeği yansıtmaması için Gemini’nin yüksek halüsinasyon oranının, toplam cevaplarının %91’inin yanlış olduğu anlamına gelmediğini belirtmek gerekir. Bunun yerine, doğru cevabın “Bilmiyorum” olduğu durumlarda %91 oranında uydurma bir cevap ürettiği anlamına geliyor. Bu ince ama önemli bir ayrımdır, ancak özellikle Gemini’nin Google Arama gibi daha fazla ürüne entegre olması nedeniyle gerçek dünyaya etkileri olan bir ayrımdır.
Tamam, sadece ben değilim. Gemini 3 Flash, Yapay Analiz Her Şeyi Bilme Halüsinasyon Oranı kriterinde %91 halüsinasyon oranına sahip!? Bunu gerçekten ciddi bir şey için kullanabilir misiniz?Antropik modellerin kodlamada bu kadar iyi olmasının nedeni, çok fazla halüsinasyon görmeleri mi diye merak ediyorum… https://t.co/b3CZbX9pHw pic.twitter.com/uZnF8KKZD418 Aralık 2025
Bu sonuç, Gemini 3’ün gücünü ve kullanışlılığını azaltmaz. Model, genel amaçlı testlerde en yüksek performansı göstermeye devam ediyor ve ChatGPT ve Claude’un en son sürümlerinin yanında, hatta önünde yer alıyor. Mütevazı olması gerekirken sadece güven konusunda yanılıyor.
Yanıt verme konusundaki aşırı güven Gemini’nin rakiplerinde de ortaya çıkıyor. Gemini’nin sayısını öne çıkaran şey, eğitim verilerinde doğru cevabın bulunmadığı veya işaret edilecek kesin bir kamu kaynağının olmadığı bu belirsizlik senaryolarında bunun ne sıklıkla gerçekleştiğidir.
Halüsinasyon Dürüstlüğü
Sorunun bir kısmı, üretken yapay zeka modellerinin büyük ölçüde kelime tahmin araçları olması ve yeni bir kelimeyi tahmin etmenin gerçeği değerlendirmekle aynı şey olmamasıdır. Bu da “Bilmiyorum” demek daha dürüst olsa bile, varsayılan davranışın yeni bir kelime bulmak olduğu anlamına gelir.
OpenAI bu konuyu ele almaya ve modellerinin bilmediklerini tanımasını ve açıkça söylemesini sağlamaya başladı. Eğitilmesi zor bir şey çünkü ödül modelleri genellikle boş bir yanıtı kendinden emin (ama yanlış) bir yanıttan daha fazla değerlendirmez. Yine de OpenAI bunu gelecekteki modellerin geliştirilmesi için bir hedef haline getirdi.
Ve Gemini genellikle mümkün olduğunda kaynaklardan alıntı yapar. Ancak o zaman bile her zaman olması gerektiği zamanda duraklamıyor. Gemini yalnızca bir araştırma modeli olsaydı bu çok da önemli olmazdı, ancak Gemini birçok Google özelliğinin arkasındaki ses haline geldikçe, kendinden emin bir şekilde yanılmak pek çok şeyi etkileyebilir.
Burada bir de tasarım seçeneği var. Birçok kullanıcı, yapay zeka asistanının hızlı ve sorunsuz yanıt vermesini bekliyor. “Emin değilim” veya “Şunu bir kontrol edeyim” demek hantal görünebilir. sohbet robotu bağlam. Ama muhtemelen yanıltılmaktan daha iyidir. Üretken yapay zeka hâlâ her zaman güvenilir değildir ancak herhangi bir yapay zeka yanıtını tekrar kontrol etmek her zaman iyi bir fikirdir.
TechRadar’ı Google Haberler’de takip edin Ve bizi tercih edilen kaynak olarak ekleyin Akışlarınızda uzman haberlerimizi, incelemelerimizi ve görüşlerimizi almak için. Takip Et butonuna tıklamayı unutmayın!
Ve tabii ki siz de yapabilirsiniz TechRadar’ı TikTok’ta takip edin haberler, incelemeler ve video biçimindeki kutu açma işlemleri için bizden düzenli olarak güncellemeler alın WhatsApp fazla.
