DeepSeek婉拒所有采访专注研发。DeepSeek的最新动作迫使OpenAI在深夜紧急上线o3-mini。近半个月来,中国的人工智能技术持续占据国内外媒体头条,影响力不断扩大。关于DeepSeek模型的训练数据、GPU使用量、团队构成及强化学习算法等细节成为关注焦点。
SemiAnalysis的一篇深度报道从多个角度进行了推测,包括训练成本、对闭源模型利润的影响以及团队规模等。报道指出,DeepSeek并非简单的副业项目,其在GPU等硬件上的支出超过5亿美元。论文中提到的600万美元仅是预训练阶段的GPU成本,研发和硬件总拥有成本并未计算在内。DeepSeek拥有约5万块Hopper GPU,包括特供版H800和H20。公司大约有150名员工,并定期从北大、浙大等顶尖高校招募人才,优秀候选人年薪可达130万美元。
DeepSeek的一个关键创新是多头潜注意力机制(MLA),该机制显著降低了推理成本。此外,V3模型性能远超R1和o1,谷歌的Gemini 2.0 Flash Thinking与R1不相上下。随着V3和R1的发布,H100价格大幅上涨,这体现了杰文斯悖论的作用。
幻方量化作为DeepSeek的主要投资者,很早就看到了AI在金融领域之外的巨大潜力。他们在2021年购入了10,000块A100 GPU,这一决策后来被证明极具前瞻性。2023年5月,幻方决定分拆成立DeepSeek,以更专注地推进AI技术发展。目前两家公司在人力资源和计算资源方面保持密切合作。
DeepSeek专注于招募中国本土人才,强调实际能力和求知欲望。他们在北京大学和浙江大学等顶尖高校举办招聘活动,提供极具竞争力的薪酬待遇。现有员工约150人,公司保持快速扩张态势。
DeepSeek的定价策略和运营效率引发了广泛关注。尽管预训练阶段的成本仅为600万美元,但整体投入远不止于此。开发新架构的过程中需要大量资源进行测试和验证。例如,多头潜注意力机制的开发周期长达数月,消耗了大量人力和计算资源。
V3模型的性能提升显著,但在AI快速迭代的背景下,半年前的技术已显得陈旧。随着时间推移,用更少的计算资源实现相当或更强的性能成为行业趋势。例如,现在可以在普通笔记本电脑上运行的小型模型能达到与GPT-3相当的性能水平,而后者在发布时需要超级计算机进行训练。
DeepSeek的独特之处在于他们率先实现了成本和性能的突破。虽然开源模型权重的做法已有先例,但DeepSeek的成就仍然显著。预计到今年年底,相关成本可能还会进一步下降5倍左右。
R1能够达到与o1相当的性能水平,关键在于新的“推理”范式。这种范式通过合成数据生成和后训练强化学习提升推理能力,使得以更低成本获得快速进展成为可能。然而,R1在许多场景下表现不如o1。OpenAI最近发布的o3测试结果显示,其性能提升几乎呈垂直上升趋势。
谷歌推出的Gemini Flash 2.0 Thinking在基准测试中表现优于R1,具有很强的稳定性。尽管如此,DeepSeek凭借快速行动、充足资金、卓越智慧和明确目标,在竞争中超越了Meta等科技巨头。
DeepSeek的多Token预测技术和混合专家模型架构显著提高了训练和推理效率。这些创新引起了西方实验室的关注。RL在R1中的应用也起到了重要作用,使其在格式化和安全性方面表现出色。通过合成数据集微调,R1的推理能力得以自然涌现。
MLA技术显著降低了DeepSeek模型的推理成本,减少了每次查询所需的KV缓存量,从而降低运营成本。由于H20芯片的高内存带宽和容量,DeepSeek在推理工作负载方面获得了更多效率提升。
R1并未真正动摇o1的技术优势,而是以更低的成本实现了相似的性能。这种现象符合市场逻辑,类似于半导体制造业的发展模式。率先突破新能力层次的公司将获得显著的价格溢价,而追赶者只能获得适度利润。DeepSeek通过零利润率策略打破了OpenAI的高利润率格局,但这是否可持续仍存疑。未来,计算资源的集中度将变得更加重要。
主题测试文章,只做测试使用。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/article/20603.html