Chatbot baru Deepseek mempunyai pengenalan yang mengagumkan: "Hai, saya telah dicipta supaya anda boleh meminta apa -apa dan mendapatkan jawapan yang mungkin mengejutkan anda." AI ini, produk permulaan Cina Deepseek, telah menjadi pemain pasaran utama, bahkan menyumbang kepada penurunan harga saham Nvidia yang ketara. Kejayaannya berasal dari metodologi seni bina dan latihan yang unik, menggabungkan beberapa teknologi inovatif.
Ramalan Multi-Token (MTP): Tidak seperti ramalan kata-kata tradisional, MTP meramalkan pelbagai perkataan secara serentak, menganalisis segmen kalimat untuk ketepatan dan kecekapan yang dipertingkatkan.
Campuran Pakar (MOE): Senibina ini memanfaatkan pelbagai rangkaian saraf untuk memproses data input, mempercepatkan latihan AI dan meningkatkan prestasi. DeepSeek V3 menggunakan 256 rangkaian, mengaktifkan lapan untuk setiap token.
Perhatian Laten Multi-Head (MLA): Mekanisme ini memberi tumpuan kepada unsur-unsur kalimat penting. MLA berulang kali mengekstrak butiran utama, meminimumkan risiko menghadap maklumat penting dan meningkatkan pemahaman yang bernuansa.
DeepSeek pada mulanya mendakwa kos latihan yang sangat rendah sebanyak $ 6 juta untuk model DeepSeek V3 yang kuat, menggunakan hanya 2048 GPU. Walau bagaimanapun, semianalisis mendedahkan infrastruktur yang jauh lebih besar: kira -kira 50,000 NVIDIA Hopper GPU (termasuk 10,000 H800s, 10,000 H100s, dan H20s tambahan) tersebar di pelbagai pusat data. Ini mewakili jumlah pelaburan pelayan kira -kira $ 1.6 bilion, dengan perbelanjaan operasi dianggarkan sebanyak $ 944 juta.
DeepSeek, anak syarikat dana lindung nilai tinggi, memiliki pusat datanya, memberikan kawalan sepenuhnya ke atas pengoptimuman dan pelaksanaan inovasi yang lebih cepat. Pendekatan yang dibiayai sendiri ini meningkatkan kelajuan fleksibiliti dan membuat keputusan. Selain itu, syarikat itu menarik bakat terbaik, dengan beberapa penyelidik memperoleh lebih dari $ 1.3 juta setiap tahun, terutamanya dari universiti -universiti China.
Oleh itu, angka $ 6 juta itu nampaknya merupakan penyimpangan yang signifikan, yang mewakili hanya kos GPU pra-latihan. Pelaburan sebenar dalam pembangunan AI melebihi $ 500 juta. Walaupun demikian, struktur yang diselaraskan DeepSeek membolehkan pelaksanaan inovasi yang cekap berbanding dengan syarikat birokrasi yang lebih besar.
Kejayaan DeepSeek mempamerkan potensi syarikat AI bebas yang dibiayai dengan baik untuk bersaing dengan gergasi industri. Walaupun tuntutan "belanjawan revolusioner" boleh dibesar -besarkan, kejayaan syarikat tidak dapat dinafikan, didorong oleh pelaburan yang besar, kejayaan teknologi, dan pasukan yang sangat mahir. Sebaliknya adalah menarik apabila mempertimbangkan kos pesaing; Model R1 DeepSeek berharga $ 5 juta, manakala CHATGPT4 berharga $ 100 juta. Walaupun dengan kos yang dijelaskan, DeepSeek kekal lebih murah daripada pesaingnya.