Il nuovo chatbot di Deepseek vanta un'impressionante introduzione: "Ciao, sono stato creato in modo da poter chiedere qualsiasi cosa e ottenere una risposta che potrebbe persino sorprenderti." Questa intelligenza artificiale, un prodotto della startup cinese Deepseek, è rapidamente diventata un importante giocatore di mercato, contribuendo anche a un calo significativo del prezzo delle azioni di Nvidia. Il suo successo deriva da una metodologia di architettura e formazione unica, che incorpora diverse tecnologie innovative.
Previsione multi-token (MTP): a differenza della previsione tradizionale di parole per parola, MTP prevede contemporaneamente più parole, analizzando segmenti di frasi per una maggiore precisione ed efficienza.
Miscela di esperti (MOE): questa architettura sfrutta più reti neurali per elaborare i dati di input, accelerare la formazione dell'IA e aumentare le prestazioni. DeepSeek V3 utilizza 256 reti, attivando otto per ogni token.
Attenzione latente multi-testa (MLA): questo meccanismo si concentra su elementi di frase cruciale. MLA estrae ripetutamente i dettagli chiave, minimizzando il rischio di trascurare informazioni importanti e migliorare la comprensione sfumata.
DeepSeek inizialmente ha rivendicato un costo di allenamento notevolmente basso di $ 6 milioni per il suo potente modello DeepSeek V3, usando solo 2048 GPU. Tuttavia, la semianalisi ha rivelato un'infrastruttura molto più grande: circa 50.000 GPU di Nvidia Hopper (inclusi 10.000 H800, 10.000 H100 e ulteriori H20) sparsi su più data center. Ciò rappresenta un investimento in totale server di circa $ 1,6 miliardi, con spese operative stimate in $ 944 milioni.
Deepseek, una consociata dell'hedge fund ad alto frigo, possiede i suoi data center, fornendo un controllo completo sull'ottimizzazione e l'implementazione più rapida dell'innovazione. Questo approccio autofinanziato migliora la flessibilità e la velocità decisionale. Inoltre, la società attira i migliori talenti, con alcuni ricercatori che guadagnano oltre $ 1,3 milioni all'anno, principalmente dalle università cinesi.
La cifra di $ 6 milioni, quindi, sembra essere un eufemismo significativo, che rappresenta solo i costi di GPU pre-allenamento. L'investimento effettivo nello sviluppo dell'IA supera $ 500 milioni. Nonostante ciò, la struttura semplificata di Deepseek consente un'efficace implementazione dell'innovazione rispetto alle aziende più grandi e burocratiche.
Il successo di Deepseek mostra il potenziale di una società di intelligenza artificiale indipendente ben finanziata per competere con i giganti del settore. Mentre l'affermazione del "bilancio rivoluzionario" è probabilmente esagerata, il successo dell'azienda è innegabile, alimentato da investimenti sostanziali, scoperte tecnologiche e una squadra altamente qualificata. Il contrasto è sorprendente quando si considerano i costi della concorrenza; Il modello R1 di DeepSeek è costato $ 5 milioni, mentre CHATGPT4 costa $ 100 milioni. Anche con i costi chiarificati, DeepSeek rimane significativamente più economico dei suoi concorrenti.