尽管春节假期已经过半,但“来自东方的神秘力量的 DeepSeek”仍在全球范围内引起热议。各路业内人士从不同角度分析 DeepSeek 的模型和技术。
韩国 Mirae Asset Securities Research 的一名分析师在 X 撰写长文分析称,这一突破是通过实施大量细粒度优化和使用英伟达的汇编式 PTX 编程实现的,而非通过 CUDA 中的某些功能。CUDA 是由英伟达开发的一种通用编程框架,允许开发者利用 GPU 进行通用计算。如果 DeepSeek 绕过了 CUDA,这说明其研发团队在大模型训练中采用了不同的技术路径。
对于程序开发人员来说,CUDA 类似于一种高级语言,降低了开发难度,使开发者能够专注于算法逻辑而无需过多考虑硬件执行细节。例如,使用高级语言进行变量赋值操作只需一条命令,而用汇编语言则需要多条指令并理解寄存器、内存等概念。因此,CUDA 便于开发基于 GPU 的算法设计。
大模型开发商通常基于 CUDA 进行研发,因为 CUDA 已经封装了一些常用函数,简化了开发过程。然而,这种通用性也带来了一定的灵活性损失。对于有特定需求的开发者,如需要精细化控制多个 GPU 之间的数据传输,CUDA 可能无法提供高效的解决方案。
当使用单个 GPU 时,CUDA 非常适用。但在多节点多 GPU 环境下,CUDA 的抽象层面效率较低。开发者可以通过组合 GPU 驱动提供的函数接口来提高效率,或者直接调用底层硬件接口以实现更高效的大模型研发。绕过 CUDA 可以直接根据 GPU 的驱动函数进行新的开发,从而实现更加细粒度的操作。
DeepSeek 在多节点通信时绕过了 CUDA 直接使用 PTX,这使得模型训练速度更快。这意味着在相同时间内可以处理更多数据,间接提高了模型效果。绕过 CUDA 并非新鲜做法,一些开源框架如 Triton 也在尝试替代 CUDA。
AI 技术人员在本科阶段通常接触的是基于深度学习框架(如 Python)的神经网络训练,很少直接编写 CUDA 相关的 C++ 代码。工作后,他们可能因项目需求接触到针对具体硬件资源的编程,但通常不需要绕过 CUDA 来写模型训练算法。然而,由于算力短缺等原因,大模型训练确实需要更高效的算力利用方法。
DeepSeek-V3 的技术报告提到使用了英伟达的 PTX 语言。相比 CUDA 提供的编程接口,PTX 能更精细地控制 GPU 之间的数据传输,但也要求更高的专业技能。绕过 CUDA 的做法具有一定的技术难度,需要开发者既懂 AI 算法又懂计算机系统架构。DeepSeek 显然招聘了具备这些技能的人才,并将他们有效地组织起来。
此外,DeepSeek 的技术报告表明其主体实现仍基于 CUDA 接口,但在通信部分绕开了 CUDA。这意味着 DeepSeek 拥有一些擅长写 PTX 语言的内部开发者。未来,若使用国产 GPU,DeepSeek 将更容易适配这些硬件。从工程角度看,DeepSeek 的技术非常有技巧,且已与 AMD 合作,未来可能与其他 GPU 厂商合作。韩国分析师认为,这反映了 DeepSeek 在面对“GPU 短缺危机”时展现出的紧迫感和创造力。
主题测试文章,只做测试使用。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/article/16489.html