DeepSeek 风靡全球,成为过去一周人们热议的话题。其每日流量远超Claude、Perplexity甚至Gemini。对于长期关注该领域的人来说,DeepSeek 并不是新事物,几个月来一直在讨论这家公司。虽然公司本身并不新,但近期的炒作确实引人注目。SemiAnalysis 一直认为 DeepSeek 具有才华,但直到最近才引起美国公众的关注。
情况与上个月相比发生了变化。随着算法改进速度加快,对Nvidia和GPU的需求减少,导致产能过剩。尽管杰文斯悖论被夸大了,但它确实反映了这些模型引发的需求变化,影响了H100和H200的定价。
High-Flyer 是一家中国对冲基金,也是在交易算法中使用人工智能的早期采用者。他们在2021年投资了10,000个A100 GPU,这笔投资后来获得了回报。2023年5月,High-Flyer 分拆出“DeepSeek”,专注于进一步的人工智能能力开发。起初由于外部投资者兴趣不大,缺乏商业模式,High-Flyer 自筹资金。如今,High-Flyer 和 DeepSeek 经常共享资源,包括人力和计算资源。DeepSeek 已经发展成为一个严肃且协调一致的努力项目,GPU 投资超过5亿美元。
据估计,DeepSeek 拥有大约50,000个Hopper GPU,其中包括10,000台H800和10,000台H100。他们还订购了更多H20,这些GPU由High-Flyer和DeepSeek共享,用于交易、推理、培训和研究。总服务器资本支出接近13亿美元,运营成本高达7.15亿美元。
DeepSeek 在招聘方面非常注重能力和好奇心,定期在北大和浙江大学等顶尖大学举办招聘活动。他们提供极具竞争力的薪资,吸引了大量人才。目前有约150名员工,发展迅速。由于资金自足,DeepSeek 能够快速实施创意,并拥有自己的数据中心,为实验提供了更多空间。
DeepSeek 的预训练成本仅为600万美元,但这只是总成本的一部分。实际硬件支出远高于5亿美元,包括研发和TCO等重要部分。例如,Claude 3.5 Sonnet 的训练成本为数千万美元。DeepSeek 通过出口管制滞后等因素获得了庞大的集群。
V3模型令人印象深刻,但相对于GPT-4o来说,后者于2024年5月发布。算法改进允许更少的计算量实现相同或更强的功能。小型模型越来越好并不是新鲜事。DeepSeek 实现了这一成本水平,预计到今年年底成本会再次下降5倍。
R1能够取得与o1相当的成绩,这得益于新的范式,即通过合成数据生成和强化学习提高推理能力。这种范式具有更快的迭代速度和更低的进入门槛。R1是一个非常好的模型,但并非每个指标都胜出。谷歌的Gemini Flash 2.0 Thinking也在一个月前发布,比R1便宜且性能强大。
DeepSeek 在技术上取得了显著成就,包括多标记预测 (MTP) 和混合专家模型 (MoE)。MTP 提高了训练效率,而MoE则通过高效路由提高了整体性能。此外,多头潜在注意力 (MLA) 显著降低了推理成本。DeepSeek 利用H20实现了更高的推理效率,并与华为建立了合作伙伴关系。
主题测试文章,只做测试使用。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/article/16370.html