DeepSeek的新聊天機器人擁有令人印象深刻的介紹:“嗨,我被創建了,您可以問任何東西,並得到一個甚至可能讓您感到驚訝的答案。”這種AI是中國初創公司DeepSeek的產物,已迅速成為主要市場參與者,甚至導致NVIDIA的股價大幅下降。它的成功源於一種獨特的建築和培訓方法,並結合了幾種創新技術。
多語預測(MTP):與傳統的單詞預測不同,MTP同時預測多個單詞,分析句子段以提高準確性和效率。
專家(MOE)的混合物:該體系結構利用多個神經網絡處理輸入數據,加速AI培訓並提高性能。 DeepSeek V3使用256個網絡,每個令牌都激活了8個網絡。
多頭潛在註意力(MLA):這種機制著重於關鍵的句子元素。 MLA反复提取關鍵細節,最大程度地減少忽略重要信息並增強細微理解的風險。
DeepSeek最初僅使用2048 GPU,其強大的DeepSeek V3車型的培訓成本非常低600萬美元。然而,半分析顯示出更大的基礎設施:大約50,000個NVIDIA HOPPER GPU(包括10,000 H800,10,000 H100和其他H20)分佈在多個數據中心。這代表了一筆總額約16億美元的服務器投資,運營費用估計為9.44億美元。
高級對沖基金的子公司DeepSeek擁有其數據中心,提供了對優化和更快的創新實施的完全控制。這種自資助的方法提高了靈活性和決策速度。此外,該公司吸引了頂尖人才,一些研究人員每年收入超過130萬美元,主要來自中國大學。
因此,這筆600萬美元的數字似乎是一個重大的輕描淡寫,僅代表培訓前的GPU成本。 AI開發的實際投資超過5億美元。儘管如此,DeepSeek的簡化結構允許與更大,更官僚的公司相比有效地實施創新。
DeepSeek的成功展示了一家資金充足的獨立AI公司與行業巨頭競爭的潛力。儘管“革命預算”主張可以說是誇大的,但該公司的成功是不可否認的,這是由於大量投資,技術突破和高技能的團隊所推動的。在考慮競爭對手成本時,對比是顯著的。 DeepSeek的R1型號的價格為500萬美元,而Chatgpt4的價格為1億美元。即使有明確的成本,DeepSeek仍然比競爭對手便宜得多。