Nowy chatbot Deepseek ma imponujące wprowadzenie: „Cześć, zostałem stworzony, abyś mógł zapytać wszystko i uzyskać odpowiedź, która może cię nawet zaskoczyć”. Ta sztuczna inteligencja, produkt chińskiego startupu Deepseek, szybko stał się głównym graczem rynkowym, nawet przyczyniając się do znacznego spadku ceny akcji NVIDIA. Jego sukces wynika z unikalnej metodologii architektury i szkoleń, obejmujących kilka innowacyjnych technologii.
Prognozowanie wielofunkcyjne (MTP): W przeciwieństwie do tradycyjnej prognozy słowa, MTP prognozuje wiele słów jednocześnie, analizując segmenty zdań pod kątem zwiększonej dokładności i wydajności.
Mieszanka ekspertów (MOE): Architektura ta wykorzystuje wiele sieci neuronowych do przetwarzania danych wejściowych, przyspieszając szkolenie AI i zwiększając wydajność. Deepseek V3 wykorzystuje 256 sieci, aktywując osiem dla każdego tokena.
Utrzymująca uwaga wielowłócona (MLA): Ten mechanizm koncentruje się na kluczowych elementach zdań. MLA wielokrotnie wyodrębnia kluczowe szczegóły, minimalizując ryzyko przeoczenia ważnych informacji i zwiększenia dopracowanego zrozumienia.
Deepseek początkowo stwierdził niezwykle niski koszt szkolenia w wysokości 6 milionów dolarów dla swojego potężnego modelu Deepseek V3, wykorzystując tylko 2048 GPU. Jednak semianaliza ujawniła znacznie większą infrastrukturę: około 50 000 GPU Nvidia Hopper (w tym 10 000 H800S, 10 000 H100S i dodatkowych H20) w wielu centrach danych. Stanowi to całkowita inwestycja serwerowa w wysokości około 1,6 miliarda USD, a wydatki operacyjne szacują na 944 mln USD.
Deepseek, spółka zależna funduszu hedgingowego o wysokiej zawartości flyer, jest właścicielem swoich centrów danych, zapewniając pełną kontrolę nad optymalizacją i szybszą wdrażaniem innowacji. To samofinansowane podejście zwiększa elastyczność i szybkość podejmowania decyzji. Ponadto firma przyciąga najlepsze talenty, a niektórzy badacze zarabiają ponad 1,3 miliona dolarów rocznie, głównie z chińskich uniwersytetów.
W związku z tym liczba 6 milionów dolarów wydaje się być znaczącym niedopowiedzeniem, reprezentującym jedynie koszty GPU przed treningiem. Rzeczywista inwestycja w rozwój AI przekracza 500 milionów dolarów. Mimo to usprawniona struktura Deepseek pozwala na skuteczne wdrożenie innowacji w porównaniu z większymi, bardziej biurokratycznymi firmami.
Sukces Deepseek pokazuje potencjał dobrze finansowanej niezależnej firmy AI do konkurowania z gigantami branżowymi. Podczas gdy roszczenie „rewolucyjnego budżetu” jest prawdopodobnie przesadzone, sukces firmy jest niezaprzeczalny, napędzany znacznymi inwestycjami, przełomami technologicznymi i wysoko wykwalifikowanym zespołem. Kontrast jest uderzający przy rozważaniu kosztów konkurencji; Model R1 Deepseek kosztował 5 milionów dolarów, a Chatgpt4 kosztował 100 milionów dolarów. Nawet przy wyjaśnionych kosztach Deepseek pozostaje znacznie tańszy niż jego konkurenci.