Le nouveau chatbot de Deepseek possède une introduction impressionnante: "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre." Cette IA, un produit de la startup chinoise Deepseek, est rapidement devenue un acteur majeur du marché, contribuant même à une baisse significative du cours des actions de Nvidia. Son succès découle d'une méthodologie d'architecture et de formation unique, incorporant plusieurs technologies innovantes.
Prédiction multi-token (MTP): Contrairement à la prédiction traditionnelle mot par mot, MTP prévoit plusieurs mots simultanément, en analysant les segments de phrases pour une précision et une efficacité améliorées.
Mélange d'experts (MOE): Cette architecture exploite plusieurs réseaux de neurones pour traiter les données d'entrée, accélérer la formation d'IA et augmenter les performances. Deepseek V3 utilise 256 réseaux, activant huit pour chaque jeton.
Attention latente multi-tête (MLA): ce mécanisme se concentre sur les éléments de phrase cruciaux. MLA extrait à plusieurs reprises les détails clés, minimisant le risque de négliger des informations importantes et d'améliorer la compréhension nuancée.
Deepseek a initialement réclamé un coût de formation remarquablement faible de 6 millions de dollars pour son puissant modèle V3 Deepseek, en utilisant seulement 2048 GPU. Cependant, la semianalyse a révélé une infrastructure beaucoup plus grande: environ 50 000 GPU de trémie NVIDIA (dont 10 000 H800, 10 000 H100S et H20S supplémentaires) se sont propagés sur plusieurs centres de données. Cela représente un investissement total de serveur d'environ 1,6 milliard de dollars, avec des dépenses opérationnelles estimées à 944 millions de dollars.
Deepseek, une filiale du hedge fund de haut vol, possède ses centres de données, fournissant un contrôle complet de l'optimisation et de la mise en œuvre plus rapide de l'innovation. Cette approche autofinancée améliore la flexibilité et la vitesse de prise de décision. En outre, la société attire les meilleurs talents, certains chercheurs gagnant plus de 1,3 million de dollars par an, principalement des universités chinoises.
Le chiffre de 6 millions de dollars semble donc être un euphémisme significatif, ne représentant que les coûts GPU avant la formation. L'investissement réel dans le développement de l'IA dépasse 500 millions de dollars. Malgré cela, la structure rationalisée de Deepseek permet une mise en œuvre efficace de l'innovation par rapport aux entreprises plus grandes et plus bureaucratiques.
Le succès de Deepseek présente le potentiel d'une entreprise d'IA indépendante bien financée pour rivaliser avec les géants de l'industrie. Bien que la réclamation du "budget révolutionnaire" soit sans doute exagérée, le succès de l'entreprise est indéniable, alimenté par des investissements substantiels, des percées technologiques et une équipe hautement qualifiée. Le contraste est frappant lorsque l'on considère les coûts des concurrents; Le modèle R1 de Deepseek a coûté 5 millions de dollars, tandis que ChatGpt4 coûte 100 millions de dollars. Même avec les coûts clarifiés, Deepseek reste beaucoup moins cher que ses concurrents.