DeepSeek的创新之处,突破之处,是在研发大语言模型时,绕过了英伟达CUDA框架,绕过了英伟达的技术护城河,直接使用了英伟达GPU的低级汇编语言PTX(Parallel Thread Execution),而不是依赖于CUDA, 尤其是其核心的CUDA生态系统。PTX位于高级GPU编程语言和低级机器代码之间,通过直接操作PTX,DeepSeek能够实现更细粒度的硬件优化,从而在训练和推理过程中获得更高的性能。
2025年之前,国内的科技巨头,百度,360,华为,阿里云,腾讯,月之暗面等等推出的ai模型,都是居于美国英伟达CUDA框架来打造的,没有原创性。CUDA可以理解为,这是英伟达给自己显卡打造的一个操作系统。就像iPhone用iOS定义智能手机,CUDA重新定义了GPU能干什么。英伟达为什么能一飞冲天,成为现在最具价值的美国科技公司?就是因为CUDA。特斯拉用CUDA训练自动驾驶,OpenAI用它搞出ChatGPT。目前,90%的AI论文实验基于CUDA,学术界已经在用CUDA代码当“科研货币”。这就是黄仁勋敢说“英伟达就是AI基础设施”的底气。
现在DeepSeek使用了专业模式,在使用英伟达的芯片训练时,使用的是更底层的PTX语言,而非大家都在用的CUDA。CUDA就相当于手机自带的相机APP,打开直接用就行,是一个通用的标准。而PTX则是通过手动调整光圈、快门,需要一定的专业度。所以,使用PTX的代价就是开发难度飙升,工作量成倍增加,因为代码完全开源,比较容易收到网络安全攻击,好处就是不需要英伟达最顶级的GPU芯片,而且以后可以兼容国产GPU,算力成本更低,更便宜,而且代码完全开源。意味着以后国内的开发者可以不再完全依赖英伟达的硬件和软件生态,以后各行业构建AI大模型时,不一定非得使用英伟达的GPU芯片,这就是英伟达最近几天股价大跌的根本原因。