Новый чат -бот DeepSeek может похвастаться впечатляющим введением: «Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас». Этот ИИ, продукт китайского стартапа DeepSeek, быстро стал основным игроком на рынке, даже способствуя значительному снижению цены акций Nvidia. Его успех проистекает из уникальной методологии архитектуры и обучения, включающей несколько инновационных технологий.
Multi-Token Production (MTP): в отличие от традиционного прогнозирования слов за словесным, MTP прогнозирует несколько слов одновременно, анализируя сегменты предложений для повышения точности и эффективности.
Смесь экспертов (MOE): эта архитектура использует несколько нейронных сетей для обработки входных данных, ускорения обучения ИИ и повышения производительности. DeepSeek V3 использует 256 сети, активируя восемь для каждого токена.
Многопользовательское скрытое внимание (MLA): этот механизм фокусируется на важных элементах предложения. MLA неоднократно извлекает ключевые детали, сводя к минимуму риск упускать из виду важную информацию и улучшить нюансированное понимание.
Глубокопочтенный, первоначально потребовал удивительно низкую стоимость обучения в 6 миллионов долларов для своей мощной модели Deepseek V3, используя только 2048 графических процессоров. Тем не менее, полуанализ выявил гораздо большую инфраструктуру: приблизительно 50 000 графических процессоров Nvidia Hopper (включая 10 000 H800, 10 000 H100 и дополнительные H20) в нескольких центрах обработки данных. Это составляет общие инвестиции в сервер в размере примерно 1,6 млрд. Долл. США, а эксплуатационные расходы оцениваются в 944 млн. Долл. США.
Deepseek, дочерняя компания Хедж-фонда с высоким содержанием флешевых хедж, владеет своими центрами обработки данных, обеспечивая полный контроль над оптимизацией и более быстрой реализацией инноваций. Этот самофинансируемый подход повышает гибкость и скорость принятия решений. Кроме того, компания привлекает лучших талантов, некоторые исследователи зарабатывают более 1,3 миллиона долларов в год, в основном из китайских университетов.
Следовательно, цифра в 6 миллионов долларов, по-видимому, является значительным преуменьшением, представляющим только предварительные затраты на графический процессор. Фактические инвестиции в развитие ИИ превышают 500 миллионов долларов. Несмотря на это, оптимизированная структура DeepSeek позволяет эффективно реализовать инновации по сравнению с более крупными, более бюрократическими компаниями.
Успех DeepSeek демонстрирует потенциал хорошо финансируемой независимой компании по искусству, чтобы конкурировать с отраслевыми гигантами. Хотя утверждение «революционного бюджета», возможно, преувеличено, успех компании неоспорим, вызванный существенным инвестициями, технологическими прорывами и высококвалифицированной командой. Контраст поразителен при рассмотрении расходов на конкуренцию; Модель DeepSeek R1 стоила 5 миллионов долларов, а CHATGPT4 стоит 100 миллионов долларов. Даже при разъясненных затратах DeepSeek остается значительно дешевле, чем его конкуренты.