O novo chatbot de Deepseek possui uma introdução impressionante: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo". Esta IA, um produto da startup chinesa Deepseek, tornou -se rapidamente um dos principais players de mercado, contribuindo para uma queda significativa no preço das ações da NVIDIA. Seu sucesso decorre de uma metodologia única de arquitetura e treinamento, incorporando várias tecnologias inovadoras.
Previsão com vários toques (MTP): Ao contrário da previsão tradicional de palavra por palavra, o MTP prevê várias palavras simultaneamente, analisando segmentos de sentença para maior precisão e eficiência.
Mistura de especialistas (MOE): Esta arquitetura aproveita várias redes neurais para processar dados de entrada, acelerando o treinamento de IA e aumentando o desempenho. O Deepseek V3 utiliza 256 redes, ativando oito para cada token.
Atenção latente de várias cabeças (MLA): Esse mecanismo se concentra nos elementos cruciais da frase. O MLA extrai repetidamente os principais detalhes, minimizando o risco de ignorar informações importantes e aumentar o entendimento diferenciado.
A Deepseek reivindicou inicialmente um custo de treinamento notavelmente baixo de US $ 6 milhões para seu poderoso modelo Deepseek V3, usando apenas 2048 GPUs. No entanto, a semiânica revelou uma infraestrutura muito maior: aproximadamente 50.000 GPUs NVIDIA Hopper (incluindo 10.000 H800s, 10.000 H100s e H20s adicionais) espalhados por vários data centers. Isso representa um investimento total do servidor de aproximadamente US $ 1,6 bilhão, com despesas operacionais estimadas em US $ 944 milhões.
A Deepseek, uma subsidiária do High-Flyer Hedge Fund, possui seus data centers, fornecendo controle completo sobre otimização e implementação mais rápida da inovação. Essa abordagem autofinanciada aumenta a flexibilidade e a velocidade de tomada de decisão. Além disso, a empresa atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das universidades chinesas.
O valor de US $ 6 milhões, portanto, parece ser um eufemismo significativo, representando apenas os custos de GPU pré-treinamento. O investimento real no desenvolvimento da IA excede US $ 500 milhões. Apesar disso, a estrutura simplificada da Deepseek permite uma implementação eficiente de inovação em comparação com empresas maiores e mais burocráticas.
O sucesso da Deepseek mostra o potencial de uma empresa de IA independente bem financiada para competir com os gigantes do setor. Embora a reivindicação do "orçamento revolucionário" seja sem dúvida exagerada, o sucesso da empresa é inegável, alimentado por investimentos substanciais, avanços tecnológicos e uma equipe altamente qualificada. O contraste é impressionante ao considerar os custos dos concorrentes; O modelo R1 da Deepseek custou US $ 5 milhões, enquanto o ChatGPT4 custou US $ 100 milhões. Mesmo com os custos esclarecidos, a Deepseek permanece significativamente mais barata que seus concorrentes.