DeepSeek的新聊天机器人拥有令人印象深刻的介绍:“嗨,我被创建了,您可以问任何东西,并得到一个甚至可能让您感到惊讶的答案。”这种AI是中国初创公司DeepSeek的产物,已迅速成为主要市场参与者,甚至导致NVIDIA的股价大幅下降。它的成功源于一种独特的建筑和培训方法,并结合了几种创新技术。
多语预测(MTP):与传统的单词预测不同,MTP同时预测多个单词,分析句子段以提高准确性和效率。
专家(MOE)的混合物:该体系结构利用多个神经网络处理输入数据,加速AI培训并提高性能。 DeepSeek V3使用256个网络,每个令牌都激活了8个网络。
多头潜在注意力(MLA):这种机制着重于关键的句子元素。 MLA反复提取关键细节,最大程度地减少忽略重要信息并增强细微理解的风险。
DeepSeek最初仅使用2048 GPU,其强大的DeepSeek V3车型的培训成本非常低600万美元。然而,半分析显示出更大的基础设施:大约50,000个NVIDIA HOPPER GPU(包括10,000 H800,10,000 H100和其他H20)分布在多个数据中心。这代表了一笔总额约16亿美元的服务器投资,运营费用估计为9.44亿美元。
高级对冲基金的子公司DeepSeek拥有其数据中心,提供了对优化和更快的创新实施的完全控制。这种自资助的方法提高了灵活性和决策速度。此外,该公司吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国大学。
因此,这笔600万美元的数字似乎是一个重大的轻描淡写,仅代表培训前的GPU成本。 AI开发的实际投资超过5亿美元。尽管如此,DeepSeek的简化结构允许与更大,更官僚的公司相比有效地实施创新。
DeepSeek的成功展示了一家资金充足的独立AI公司与行业巨头竞争的潜力。尽管“革命预算”主张可以说是夸大的,但该公司的成功是不可否认的,这是由于大量投资,技术突破和高技能的团队所推动的。在考虑竞争对手成本时,对比是显着的。 DeepSeek的R1型号的价格为500万美元,而Chatgpt4的价格为1亿美元。即使有明确的成本,DeepSeek仍然比竞争对手便宜得多。