
Her yeni yapay zeka modeli, hayal edebileceğiniz her açıdan şimdiye kadarki en iyi yapay zeka modeli olduğu konusunda ısrar ediyor. Açıkçası bu doğru olamaz, ancak her birinin farklı görev ve rollerde ne kadar iyi performans gösterdiği her zaman açık değildir ve sözde tarafsız niceliksel testler bile ortalama kullanıcı için nasıl hissettiklerini doğru bir şekilde aktarmayabilir.
Belirli bir örnek, çok modlu şifre çözmedir; bir görüntüye bakmak ve içinde ne olduğunu ve ne anlama gelebileceğini çözmek. Bu, insanların anında ve içgüdüsel olarak yaptığı bir şeydir, ancak yapay zeka modelleri bu rolde daha yenidir. Kaotik bir görüntüyü doğru bir şekilde yorumlayacak bir yapay zeka modeli elde etmek, ilk başta düşündüğünüzden daha önemli olabilir. Bir yapay zeka modeli nesneleri tanımlayabiliyorsa, sigorta için eşyaları kataloglamanıza, evdeki tehlikeleri belirlemenize ve hatta bir toplu taşıma haritasının şifresini çözmenize yardımcı olabilir. Ayrıntıları icat etmeden karmaşık, katmanlı görsel bilgileri anlamlandırabilen bir yapay zeka modeli inanılmaz derecede faydalıdır.
Times Meydanı
Times Meydanı duyusal bir aşırı yüktür. Çok modlu bir model Times Square’i doğru şekilde ayrıştırabiliyorsa hemen hemen her yerde ayrıştırabilir.
ChatGPT 5.1, Times Square’i yapısal bir şekilde karşılıyor ve onu farklı bölümlere ayırıyor. için önemli işaretleri belirledi. Kötü, Hayalet, Jersey Erkekleri, Aldo, Ve İfade etmekSosisli sandviç arabasını, sarı taksileri, otobüsleri, karşıdan karşıya geçen insanları ve sokak işaretlerini hiçbir şeyi dramatize etmeden görüyor. Tabelalarda görünen bazı metinlerden alıntılar yapıldı; bunların arasında “Bu gece aittir…” gibi daha küçük ifadeler de vardı. Operadaki Hayalet. ChatGPT 5.1 neredeyse konuşkan bir tavırla şunu söylüyordu: “Bu, akşam enerjisinin zirvesine benziyor, her şey dikkat çekmek için yarışıyor.”
Gemini 3 Pro, Times Meydanı görüntüsüne adli bir analist gibi yaklaşıyor. Sadece mevcut olanı listelemiyor; mekansal ilişkileri, açıları ve renk kompozisyonunu tanımlar. Örneğin, Wicked tabelasındaki yeşil parıltının “bitişik bina yüzeylerine nasıl yansıdığını” belirtiyor, diğerlerinin de bahsetmeye tenezzül etmediği bir şey. Yaya geçidi düzenini “yoğun yaya akışını gösteren geniş, kademeli çapraz çizgiler” olarak adlandırıyor ve otobüsün süslemesiz bir MTA aracı olduğunu tanımlıyor.
Metin tanıma özelliği mükemmeldir. Kısmi işaretleri yanlış okumaz ve tahmin etme isteğini ortadan kaldırır. Bir şey okunamadığında basitçe şöyle der: “Metin mevcut ancak açı ve çözünürlük nedeniyle okunamıyor.” Bu kısıtlama, multimodal bir modelde tam olarak istediğiniz şeydir.
Claude, Times Meydanı’nı edebiyata dönüştürecek en muhtemel model. Sahneyi “New York City’deki Times Meydanı’nın, bölgenin ikonik enerjisini ve manzarasını yakalayan canlı bir gece fotoğrafı” olarak tanımladı. Sade bir tanımlamaya sadık kalındığında Claude keskindir. Ana işaretleri ve bunların renklerini tanımlar ve gölgeler, yansımalar ve yaya trafiğinin yoğunluğu da dahil olmak üzere pek çok görsel ayrıntıyı doğru şekilde yakalar.
Rönesans tablosu
Michelangelo’nun Son Karar bir modele bin parçalık bir yapboz vermenin görsel eşdeğeridir. Düzinelerce figür, karmaşık pozlar, üst üste binen uzuvlar, incelikli sembolik anlar ve muazzam bir anlatım yoğunluğu var. Bu görüntü, ince taneli figür tanımlamayı, mekansal akıl yürütmeyi ve sanatsal niyetin tanınmasını test eder.
ChatGPT 5.1 resme akademik netlikle yaklaşıyor. “Dönen bir insan formları yığınıyla çevrelenmiş merkezi bir İsa figürünü” tanımlıyor, kutsanmış ve lanetlenmiş figürlerin ayrımına dikkat çekiyor ve borazan çalan melekler, yerden yükselen dirilmiş bedenler ve ruhları aşağıya çeken iblisler gibi farklı kümeleri tanımlıyor. En önemlisi, belirli kimlikleri halüsinasyona uğratmıyor. Karakterleri yanlış bir güvenle isimlendirmenin cazibesinden kaçınarak, “sol alttaki figürlerin mezarlardan kaldırıldığını” veya “Çarpının sembollerini taşıyan melekleri” ifade eder.
Gemini 3 Pro bana gerçek bir sanat tarihçisinin çöküşüne en yakın şeyi veriyor. Yalnızca rakam kümelerini tanımlamakla kalmıyor; yapısal geometriyi tanımlar: “eşmerkezli yaylar halinde düzenlenmiş çevreleyici gövdelerle birlikte dinamik bir İsa figürüne odaklanan radyal bir kompozisyon.” Hareketin yönelimine, Michelangelo’nun kaslarının gerginliğine ve hatta çeşitli bulutlardaki ince gölge farklılıklarına dikkat çekiyor.
“Sağ alt çeyrekte iblisler tarafından daha karanlık bir sınır bölgesine doğru çekilen figürler yer alıyor” gibi temel ayrıntılar sunuyor ve kanonik olmadıkları ve geniş çapta tanınmadıkları sürece kimlikleri tahmin etmekten kaçınıyor. Figürlerin duygusal ifadelerini melodrama sürüklenmeden okuyor: “Birçok figür abartılı jest ve gerginlikle ıstırabı, huşu ya da yakarışı sergiliyor.”
Claude, tablonun tamamına “ilahi yargıyla sarmal çizen muhteşem bir vücut girdabı” şeklinde şiirsel bir dille yaklaşmadan önce, tablodaki çıplaklık tartışmasına dikkat çekmeyi ihmal etmedi. Hemen merkezde İsa’yı, onun yanında Meryem’i ve kurtarılmış figürlerin yukarıya doğru gidişine karşı lanetlilerin aşağı doğru çalkantısını tanımlar. Aksi takdirde, Times Meydanı ile karşılaştırıldığında nispeten hareketliydi; her bölümün üzerinden geçerek rakamların ayrıntılı bir listesini ve bunların nasıl ayırt edileceğini veriyordu.
Dağınık oda
Kaotik bir odada ne olduğunu bulmak aldatıcı derecede zor bir iştir. Küçük bir alanda farklı yüzeyler, yığınlar, dolaşmış kablolar, üst üste binen kağıtlar ve çok daha fazlası. Eğer bir yapay zeka burada ne olduğunu çözebilirse, her türlü iç sorunu da çözebilmelidir.
ChatGPT 5.1, odanın genel düzenini belirlemekle başlayarak bir envanter çıkardı. Dolaşmış kabloları, belgeleri, plastik saklama kutularını ve kağıt yığınlarını gördü. Daha sonra soldan sağa doğru listelemeye başladı: “Soldaki tabloda kablolar, klasörler, kılavuzlar ve küçük elektronik cihazlar da dahil olmak üzere çok sayıda öğe yer alıyor.” Sağ masanın altındaki yeşil kasaları ve üstte istiflenmiş mavi klasörleri tanımlar. Çoğunlukla doğruydu, ancak bazen başka bir model daha spesifik bir tahminde bulunabileceği zaman, bazı şeyleri belli belirsiz bir şekilde “küçük bir cihaz” olarak etiketliyordu.
Gemini 3 Pro, malzemelerden renklere, şekillere ve hatta cihazların olası işlevlerine kadar her ayrıntıyı parçalayan son derece hassas bir listeye gitti. Pencere aydınlatmasını, yerdeki gölgeleri ve kağıt yığınlarının boyutunu tanımlıyordu. Hatta ne ChatGPT ne de Claude’un bahsetmediği bir ayrıntı olan, bir yığının altından kısmen görünen eski desenli halıyı bile işaret ediyordu. Diğerlerinden farklı olarak Gemini, aşırıya kaçmadan incelikli çıkarımlar yapmaya çalıştı. “Bağlayıcıların çeşitliliği ve dağınık formlar, alanın idari veya organizasyonel işler için kullanıldığını gösteriyor” dedi.
Claude odanın “düzensizlik içinde göründüğünü” kuru bir şekilde vurgulayarak tepki gösterdi. Listeyi mobilyalara, üzerinde ne olduğuna, zemine ve üzerinde ne olduğuna vb. göre türe göre düzenleyerek odayı dolaştı. Dosyalar, kasalar, teller, bitkiler, çantalar ve kağıtlar gibi birçok doğru nesneyi tespit etti. Ancak bazen, gerçekte yalnızca basılı sayfalardan oluşan bir “zarf yığını”nı tanımlamak veya katlanmış bir muşambayı “giysi çantası” olarak adlandırmak gibi görünmeyen şeyler de çıkarımlarında bulunuldu.
Çözüm
Her model oldukça iyi performans gösterdi. ChatGPT 5.1’in çoğu durumda dikkatli ve güven verici derecede doğru olduğunu hissettim, ancak uzun bir listeden sonra konunun dışına çıkma eğilimindeydi ve bazen kısmen görülen bir nesneyi aşırı güvenle etiketliyor.
Claude Opus 4.5’in bazı eğlenceli açıklamaları vardı ve çoğu durumda doğru kalsa da yaratıcı olabiliyordu, ancak bazen yorumları biraz fazla yaratıcıydı. Özellikle kaotik sahnelerde katı bir hassasiyete ihtiyaç duyduğunuzda, sanatsal dürtüler yolunuza çıkabilir.
Gemini 3 Pro sürekli olarak en net gören modeldir. Üst üste binen nesneleri ayırt etmede, halüsinasyondan kaçınmada, metni doğru okumada ve sahneleri bağlamsallaştırmada mükemmeldir. Görsel ilişkileri, ışıklandırmayı, kompozisyonu ve dokuyu diğerlerinin yapamayacağı şekilde tanımlar. Piksellere tepki veren bir metin modelinden ziyade, gerçek bir çok modlu algılama sistemine benziyor. Dolayısıyla, çoğu durumda üçünden herhangi birinin kullanılması iyi olsa da, bir yapay zeka modelinde gerçekten aradığınız şey, paylaştığınız herhangi bir görüntüde olup biteni gerçekten arama yeteneği ise Gemini 3 Pro’yu önereceğim.
TechRadar’ı Google Haberler’de takip edin Ve bizi tercih edilen kaynak olarak ekleyin Akışlarınızda uzman haberlerimizi, incelemelerimizi ve görüşlerimizi almak için. Takip Et butonuna tıklamayı unutmayın!
Ve tabii ki siz de yapabilirsiniz TechRadar’ı TikTok’ta takip edin haberler, incelemeler ve video biçimindeki kutu açma işlemleri için bizden düzenli olarak güncellemeler alın WhatsApp fazla.
Her bütçeye uygun en iyi iş dizüstü bilgisayarları
