El nuevo chatbot de Deepseek cuenta con una introducción impresionante: "Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que incluso te sorprenda". Esta IA, un producto de la startup china Deepseek, se ha convertido rápidamente en un importante jugador del mercado, incluso contribuyendo a una caída significativa en el precio de las acciones de Nvidia. Su éxito proviene de una metodología única de arquitectura y capacitación, que incorpora varias tecnologías innovadoras.
Predicción de múltiples token (MTP): a diferencia de la predicción tradicional de palabras por palabra, MTP pronostica múltiples palabras simultáneamente, analizando segmentos de oraciones para una mayor precisión y eficiencia.
Mezcla de expertos (MOE): esta arquitectura aprovecha múltiples redes neuronales para procesar datos de entrada, acelerar la capacitación de IA y aumentar el rendimiento. Deepseek V3 utiliza 256 redes, activando ocho para cada token.
Atención latente de múltiples cabezas (MLA): este mecanismo se centra en elementos de oraciones cruciales. MLA extrae repetidamente detalles clave, minimizando el riesgo de pasar por alto información importante y mejorar la comprensión matizada.
Deepseek inicialmente reclamó un costo de capacitación notablemente bajo de $ 6 millones por su poderoso modelo Deepseek V3, utilizando solo 2048 GPU. Sin embargo, el semianálisis reveló una infraestructura mucho más grande: aproximadamente 50,000 GPU de tolva nvidia (incluidas 10,000 H800, 10,000 H100 y H20 adicionales) se extienden en múltiples centros de datos. Esto representa una inversión de servidor total de aproximadamente $ 1.6 mil millones, con gastos operativos estimados en $ 944 millones.
Deepseek, una subsidiaria del fondo de cobertura de alto flyer, posee sus centros de datos, proporcionando un control completo sobre la optimización y la implementación de innovación más rápida. Este enfoque autofinanciado mejora la flexibilidad y la velocidad de toma de decisiones. Además, la compañía atrae a los mejores talentos, con algunos investigadores ganando más de $ 1.3 millones anuales, principalmente de universidades chinas.
La cifra de $ 6 millones, por lo tanto, parece ser una subestimación significativa, que representa solo los costos de GPU previos al entrenamiento. La inversión real en el desarrollo de IA supera los $ 500 millones. A pesar de esto, la estructura simplificada de Deepseek permite una implementación de innovación eficiente en comparación con empresas más grandes y burocráticas.
El éxito de Deepseek muestra el potencial de una compañía de IA independiente bien financiada para competir con los gigantes de la industria. Si bien el reclamo del "presupuesto revolucionario" es posiblemente exagerado, el éxito de la compañía es innegable, alimentado por una inversión sustancial, avances tecnológicos y un equipo altamente calificado. El contraste es sorprendente al considerar los costos de la competencia; El modelo R1 de Deepseek costó $ 5 millones, mientras que ChatGPT4 costó $ 100 millones. Incluso con los costos aclarados, Deepseek sigue siendo significativamente más barato que sus competidores.