Deepseek'in yeni sohbet botu etkileyici bir tanıtımla övünüyor: "Merhaba, yaratıldım, böylece bir şey sorabilir ve sizi şaşırtabilecek bir cevap alabilirsiniz." Çin girişiminin bir ürünü olan bu AI, hızla büyük bir pazar oyuncusu haline geldi ve hatta Nvidia'nın hisse senedi fiyatında önemli bir düşüşe katkıda bulundu. Başarısı, çeşitli yenilikçi teknolojileri içeren eşsiz bir mimari ve eğitim metodolojisinden kaynaklanmaktadır.
Çoklu Tahmini Tahmin (MTP): Geleneksel kelime tahmininin aksine, MTP aynı anda birden fazla kelimeyi tahmin ederek, daha fazla doğruluk ve verimlilik için cümle segmentlerini analiz eder.
Uzmanların Karışımı (MOE): Bu mimari, AI eğitimini hızlandırarak ve performansı artırarak girdi verilerini işlemek için birden fazla sinir ağından yararlanır. Deepseek V3 256 ağ kullanır ve her jeton için sekiz etkinleştirilir.
Çok Baş Gizli Dikkat (MLA): Bu mekanizma önemli cümle unsurlarına odaklanır. MLA, önemli bilgileri gözden geçirme ve nüanslı anlayışı geliştirme riskini en aza indirerek temel ayrıntıları tekrar tekrar çıkarır.
Deepseek başlangıçta güçlü Deepseek V3 modeli için sadece 2048 GPU kullanarak 6 milyon dolarlık bir eğitim maliyeti talep etti. Bununla birlikte, Semanaliz çok daha büyük bir altyapı ortaya çıkardı: yaklaşık 50.000 NVIDIA Hopper GPU'ları (10.000 H800'ler, 10.000 H100s ve ek H20s dahil) birden fazla veri merkezine yayıldı. Bu, yaklaşık 1,6 milyar dolarlık toplam sunucu yatırımını temsil eder ve operasyonel giderlerin 944 milyon dolar olduğu tahmin edilmektedir.
High Flyer Hedge Fonu'nun bir yan kuruluşu olan Deepseek, optimizasyon ve daha hızlı inovasyon uygulaması üzerinde tam kontrol sağlayan veri merkezlerinin sahibidir. Bu kendi kendine finanse edilen yaklaşım esnekliği ve karar verme hızını artırır. Dahası, şirket en iyi yetenekleri çekiyor ve bazı araştırmacılar yılda 1.3 milyon doların üzerinde, öncelikle Çin üniversitelerinden kazanıyor.
Bu nedenle, 6 milyon dolarlık rakam, sadece eğitim öncesi GPU maliyetlerini temsil eden önemli bir eksiklik gibi görünmektedir. AI gelişimine gerçek yatırım 500 milyon doları aşıyor. Buna rağmen, Deepseek'in aerodinamik yapısı, daha büyük, daha bürokratik şirketlere kıyasla verimli inovasyon uygulamasına izin verir.
Deepseek'in başarısı, iyi finanse edilen bağımsız bir AI şirketinin endüstri devleriyle rekabet etme potansiyelini sergiliyor. "Devrimci bütçe" iddiası tartışmalı olarak abartılı olsa da, şirketin başarısı inkar edilemez, önemli yatırımlar, teknolojik atılımlar ve yüksek vasıflı bir ekiple körüklenir. Rakip maliyetleri düşünürken kontrast dikkat çekicidir; Deepseek'in R1 modeli 5 milyon dolara, ChatGPT4'ün maliyeti 100 milyon dolara mal oldu. Açıklığa kavuşturulmuş maliyetlerle bile, Deepseek rakiplerinden önemli ölçüde daha ucuzdur.