Chatbot mới của Deepseek tự hào về phần giới thiệu ấn tượng: "Xin chào, tôi được tạo ra để bạn có thể hỏi bất cứ điều gì và nhận được câu trả lời thậm chí có thể làm bạn ngạc nhiên." AI này, một sản phẩm của công ty khởi nghiệp Trung Quốc Deepseek, đã nhanh chóng trở thành một người chơi thị trường lớn, thậm chí góp phần làm giảm đáng kể giá cổ phiếu của NVIDIA. Thành công của nó xuất phát từ một phương pháp đào tạo và kiến trúc độc đáo, kết hợp một số công nghệ sáng tạo.
Dự đoán đa điểm (MTP): Không giống như dự đoán từng từ truyền thống, MTP dự báo đồng thời nhiều từ, phân tích các phân đoạn câu để nâng cao độ chính xác và hiệu quả.
Hỗn hợp các chuyên gia (MOE): Kiến trúc này tận dụng nhiều mạng lưới thần kinh để xử lý dữ liệu đầu vào, tăng tốc hiệu suất đào tạo và tăng cường AI. DeepSeek V3 sử dụng 256 mạng, kích hoạt tám mạng cho mỗi mã thông báo.
Sự chú ý tiềm ẩn đa đầu (MLA): Cơ chế này tập trung vào các yếu tố câu quan trọng. MLA liên tục trích xuất các chi tiết chính, giảm thiểu rủi ro nhìn ra thông tin quan trọng và nâng cao sự hiểu biết sắc thái.
Deepseek ban đầu tuyên bố chi phí đào tạo thấp đáng kể là 6 triệu đô la cho mẫu Deepseek V3 mạnh mẽ của mình, chỉ sử dụng GPU 2048. Tuy nhiên, Semianalysis cho thấy một cơ sở hạ tầng lớn hơn nhiều: khoảng 50.000 GPU phễu NVIDIA (bao gồm 10.000 H800, 10.000 H100 và H20 bổ sung) trải rộng trên nhiều trung tâm dữ liệu. Điều này thể hiện tổng đầu tư của máy chủ khoảng 1,6 tỷ đô la, với chi phí hoạt động ước tính khoảng 944 triệu đô la.
Deepseek, một công ty con của quỹ phòng hộ cao, sở hữu các trung tâm dữ liệu của mình, cung cấp quyền kiểm soát hoàn toàn đối với tối ưu hóa và triển khai đổi mới nhanh hơn. Cách tiếp cận tự tài trợ này giúp tăng cường tính linh hoạt và tốc độ ra quyết định. Hơn nữa, công ty thu hút tài năng hàng đầu, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm, chủ yếu từ các trường đại học Trung Quốc.
Do đó, con số 6 triệu đô la dường như là một cách đánh giá cao đáng kể, chỉ đại diện cho chi phí GPU được đào tạo trước. Đầu tư thực tế vào phát triển AI vượt quá 500 triệu đô la. Mặc dù vậy, cấu trúc hợp lý của Deepseek cho phép thực hiện đổi mới hiệu quả so với các công ty lớn hơn, quan liêu hơn.
Thành công của Deepseek thể hiện tiềm năng của một công ty AI độc lập được tài trợ tốt để cạnh tranh với những người khổng lồ trong ngành. Mặc dù yêu cầu "ngân sách cách mạng" được cho là phóng đại, thành công của công ty là không thể phủ nhận, được thúc đẩy bởi sự đầu tư đáng kể, đột phá công nghệ và một nhóm có tay nghề cao. Sự tương phản là nổi bật khi xem xét chi phí của đối thủ cạnh tranh; Mô hình R1 của Deepseek có giá 5 triệu đô la, trong khi TATGPT4 có giá 100 triệu đô la. Ngay cả với các chi phí được làm rõ, Deepseek vẫn rẻ hơn đáng kể so với các đối thủ cạnh tranh.