
- DeepSeek’in Engram’ı, statik belleği hesaplamadan ayırarak büyük yapay zeka modellerinde verimliliği artırır
- Yöntem, DeepSeek modellerinin aramaları kullanmasını sağlayarak yüksek hızlı bellek ihtiyaçlarını azaltır.
- Engram, minimum performans yüküyle birden fazla GPU arasında eşzamansız ön getirmeyi destekler
DeepSeek, Pekin Üniversitesi ile işbirliği içinde, bellek depolamayı hesaplama süreçlerinden ayırmak için tasarlanan Engram adı verilen yeni bir eğitim yöntemini tanıttı.
Geleneksel büyük dil modelleri bilgi erişimi ve temel hesaplama için yüksek bant genişlikli belleğe ihtiyaç duyar, bu da hem performans hem de maliyet açısından bir darboğaz yaratır.
Bu HBM darboğazı, büyük yapay zeka modellerini desteklemek için donanım talebinin artmasıyla DRAM fiyatlarının yalnızca 10 hafta içinde 5 kat artmasının temel nedeni olarak kabul ediliyor.
Doğrulama ve teknik yaklaşım
Araştırmacılar, mevcut modellerin önemsiz işlemlerde sıralı derinliği boşa harcadığını, bunun aksi takdirde daha yüksek düzeyde akıl yürütmeyi destekleyebileceğini söyledi.
Engram, modellerin GPU belleğini aşırı yüklemeden temel bilgileri verimli bir şekilde “aramasına” olanak tanır ve daha karmaşık akıl yürütme görevleri için kapasiteyi serbest bırakır.
Sistem 27 milyar parametreli bir model üzerinde test edildi ve standart endüstri kıyaslamalarında ölçülebilir iyileştirmeler gösterdi.
Engram, karma N-gramlar aracılığıyla bilgi alımı gerçekleştirerek mevcut bağlamdan bağımsız olarak statik bellek erişimi sağlar.
Alınan bilgiler daha sonra modelin gizli durumuyla hizalamak için bağlama duyarlı bir geçiş mekanizması kullanılarak ayarlanır.
Bu tasarım, modellerin uzun bağlam girdilerini daha verimli bir şekilde işlemesine olanak tanır ve minimum performans ek yüküyle sistem düzeyinde önceden getirmeyi destekler.
Engram yöntemi, Phison’un yapay zeka çıkarım hızlandırıcıları gibi çözümler de dahil olmak üzere donanım açısından verimli diğer yaklaşımları tamamlıyor.
Engram, statik bilgi aramalarını kullanarak gereken yüksek hızlı bellek miktarını en aza indirerek bellek kullanımını daha verimli hale getirir.
Phison, Engram veya Uzman Karması sistemleri gibi büyük yapay zeka modellerini destekleyerek, SSD’leri kullanarak toplam belleği genişletmenin uygun maliyetli bir yolunu sunar.
Bu yaklaşımlar bir araya getirildiğinde, yapay zeka sistemlerinin hızlı bellek kullanımını optimize etmesine ve genel bellek kapasitesini uygun maliyetli bir şekilde artırmasına olanak tanır.
Ayrıca, büyük ölçekli yapay zeka iş yüklerinde GPU bellek darboğazlarının üstesinden gelmeyi amaçlayan yeni ortaya çıkan CXL (Compute Express Link) standartlarıyla da birlikte çalışır.
Yöntem, statik model depolamayı dinamik hesaplamadan ayırarak FLOP’ları veya parametre sayımlarını artırmadan Transformer omurgasını geliştirir.
DeepSeek, MoE koşullu hesaplama modülü ile Engram bellek modülü arasındaki parametrelerin tahsisini optimize etmek için U şeklinde bir genişletme kuralını resmileştirdi.
Testler, seyrek parametre bütçesinin yaklaşık %20-25’inin Engram’a yeniden tahsis edilmesinin, saf MoE modellerinden daha iyi performans sağladığını ve farklı ölçeklerde istikrarlı kazançlar sağladığını göstermektedir.
Bellek yuvası genişletme, ek hesaplama maliyeti olmadan öngörülebilir iyileştirmeler sağlar.
Bu, seyrek modeller için koşullu belleğin bağımsız bir eksen olarak ölçeklenebilirliğini doğrular.
Engram’ın deterministik geri alma mekanizması, çıkarım sırasında eşzamansız ön getirmeyi desteklerken bellek kapasitesinin birden fazla GPU arasında doğrusal olarak ölçeklenmesine olanak tanır.
Statik bilginin yeniden yapılandırılmasının yükünü alt katmanlardan alır ve dikkat mekanizmalarını küresel bağlama odaklanacak şekilde serbest bırakır.
Sık kullanılan yerleştirmelerin hiyerarşik olarak önbelleğe alınması verimliliği artırır ve modül mevcut GPU ve sistem belleği mimarileri, potansiyel olarak maliyetli HBM yükseltmelerinden kaçınılmasını sağlar.
Bu teknik, özellikle HBM erişiminin rakiplerin gerisinde kaldığı Çin gibi bölgelerde pahalı bellek donanımları üzerindeki baskıyı hafifletebilir. SAMSUNGSK Hynix ve Micron.
Engram’ın erken doğrulaması, modellerin bellek taleplerini daha verimli bir şekilde yönetirken parametre ölçeğini ve akıl yürütme kapasitesini genişletebileceğini öne sürüyor.
Bu yaklaşım, yapay zeka altyapısı genelindeki bellek kısıtlamalarının hafifletilmesine yardımcı olabilir ve potansiyel olarak keskinliği azaltabilir. DDR5 DRAM fiyat dalgalanmaları.
Aracılığıyla SCMP
TechRadar’ı Google Haberler’de takip edin Ve bizi tercih edilen kaynak olarak ekleyin Akışlarınızda uzman haberlerimizi, incelemelerimizi ve görüşlerimizi almak için. Takip Et butonuna tıklamayı unutmayın!
Ve tabii ki siz de yapabilirsiniz TechRadar’ı TikTok’ta takip edin haberler, incelemeler ve video biçimindeki kutu açma işlemleri için bizden düzenli olarak güncellemeler alın WhatsApp fazla.
