Chatbot ใหม่ของ Deepseek มีการแนะนำที่น่าประทับใจ: "สวัสดีฉันถูกสร้างขึ้นเพื่อให้คุณสามารถถามอะไรก็ได้และรับคำตอบที่อาจทำให้คุณประหลาดใจ" AI นี้ซึ่งเป็นผลิตภัณฑ์ของการเริ่มต้นของจีน Deepseek ได้กลายเป็นผู้เล่นในตลาดรายใหญ่อย่างรวดเร็วแม้กระทั่งมีส่วนทำให้ราคาหุ้นของ Nvidia ลดลงอย่างมีนัยสำคัญ ความสำเร็จของมันเกิดจากสถาปัตยกรรมที่เป็นเอกลักษณ์และวิธีการฝึกอบรมโดยผสมผสานเทคโนโลยีนวัตกรรมหลายอย่าง
การทำนายแบบมัลติเทน (MTP): ซึ่งแตกต่างจากการทำนายคำต่อคำแบบดั้งเดิม MTP คาดการณ์หลายคำพร้อมกันวิเคราะห์กลุ่มประโยคเพื่อความแม่นยำและประสิทธิภาพที่เพิ่มขึ้น
ส่วนผสมของผู้เชี่ยวชาญ (MOE): สถาปัตยกรรมนี้ใช้ประโยชน์จากเครือข่ายประสาทหลายแห่งเพื่อประมวลผลข้อมูลอินพุตเร่งการฝึกอบรม AI และเพิ่มประสิทธิภาพ Deepseek V3 ใช้ 256 เครือข่ายเปิดใช้งานแปดสำหรับแต่ละโทเค็น
ความสนใจแฝงหลายหัว (MLA): กลไกนี้มุ่งเน้นไปที่องค์ประกอบประโยคที่สำคัญ MLA แยกรายละเอียดที่สำคัญซ้ำ ๆ ลดความเสี่ยงของการมองเห็นข้อมูลที่สำคัญและเพิ่มความเข้าใจที่เหมาะสม
Deepseek ในขั้นต้นอ้างว่ามีค่าใช้จ่ายในการฝึกอบรมที่ต่ำอย่างน่าทึ่งที่ $ 6 ล้านสำหรับรุ่น Deepseek V3 ที่ทรงพลังโดยใช้ GPU เพียง 2048 เท่านั้น อย่างไรก็ตาม Semianalysis เปิดเผยโครงสร้างพื้นฐานที่มีขนาดใหญ่กว่า: ประมาณ 50,000 Nvidia Hopper GPUs (รวมถึง 10,000 H800S, 10,000 H100s และ H20s เพิ่มเติม) กระจายไปทั่วศูนย์ข้อมูลหลายแห่ง สิ่งนี้แสดงให้เห็นถึงการลงทุนเซิร์ฟเวอร์รวมประมาณ 1.6 พันล้านดอลลาร์โดยมีค่าใช้จ่ายในการดำเนินงานอยู่ที่ 944 ล้านดอลลาร์
Deepseek ซึ่งเป็น บริษัท ย่อยของกองทุนป้องกันความเสี่ยงสูงเป็นเจ้าของศูนย์ข้อมูลให้การควบคุมการเพิ่มประสิทธิภาพและการใช้นวัตกรรมที่เร็วขึ้น วิธีการที่ได้รับทุนด้วยตนเองนี้ช่วยเพิ่มความยืดหยุ่นและความเร็วในการตัดสินใจ นอกจากนี้ บริษัท ยังดึงดูดความสามารถสูงสุดโดยนักวิจัยบางคนมีรายได้มากกว่า 1.3 ล้านเหรียญสหรัฐต่อปีส่วนใหญ่มาจากมหาวิทยาลัยจีน
ดังนั้นตัวเลข 6 ล้านดอลลาร์จึงดูเหมือนจะเป็นการพูดที่สำคัญซึ่งคิดเป็นค่าใช้จ่าย GPU ก่อนการฝึกอบรมเท่านั้น การลงทุนที่แท้จริงในการพัฒนา AI เกิน $ 500 ล้าน อย่างไรก็ตามสิ่งนี้โครงสร้างที่มีความคล่องตัวของ Deepseek ช่วยให้สามารถใช้นวัตกรรมที่มีประสิทธิภาพเมื่อเทียบกับ บริษัท ที่มีขนาดใหญ่และมีระบบราชการมากขึ้น
ความสำเร็จของ Deepseek นำเสนอศักยภาพของ บริษัท AI อิสระที่ได้รับการสนับสนุนอย่างดีในการแข่งขันกับยักษ์ใหญ่ในอุตสาหกรรม ในขณะที่การเรียกร้อง "งบประมาณการปฏิวัติ" นั้นเกินความจริงเนื้อหาความสำเร็จของ บริษัท นั้นไม่อาจปฏิเสธได้เกิดจากการลงทุนที่สำคัญการพัฒนาทางเทคโนโลยีและทีมงานที่มีทักษะสูง ความแตกต่างนั้นโดดเด่นเมื่อพิจารณาค่าใช้จ่ายของคู่แข่ง รุ่น R1 ของ Deepseek มีราคา $ 5 ล้านในขณะที่ CHATGPT4 มีราคา $ 100 ล้าน แม้จะมีค่าใช้จ่ายที่ชัดเจน แต่ Deepseek ยังคงถูกกว่าคู่แข่งอย่างมีนัยสำคัญ