DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪 5万块GPU助力创新

火星财经 • 2025年2月1日下午1:58 • 社会 • 阅读 4

DeepSeek近期的一系列动作，尤其是其模型的发布，迫使OpenAI在深夜紧急推出了o3-mini。过去半个月里，中国AI公司在国内外媒体上频频亮相，影响力持续上升。关于DeepSeek的模型训练数据、GPU用量、成员构成以及强化学习算法等细节，成为了公众关注的焦点。

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪

SemiAnalysis的一篇深度报道对这些方面进行了详细推测。报道指出，DeepSeek不是简单的副业项目，其在硬件上的支出远超5亿美元。论文中提到的600万美元仅是预训练阶段的GPU成本，而研发和硬件总拥有成本并未计算在内。据估计，DeepSeek拥有约5万块Hopper GPU，包括特供版H800和H20，并且有150名员工，其中不乏来自北大、浙大的顶尖人才，优秀候选人的年薪可高达934万元人民币。

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪 5万块GPU助力创新

DeepSeek的一个关键创新是多头潜注意力机制（MLA），这一技术显著降低了推理成本。V3模型性能超越了R1和o1，而谷歌的Gemini 2.0 Flash Thinking与R1不相上下。此外，H100的价格因V3和R1的发布而猛涨，体现了杰文斯悖论的作用。

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪 5万块GPU助力创新

幻方量化作为DeepSeek的主要投资者，早期就看到了AI在金融领域之外的巨大潜力。2021年，他们购入了1万块A100 GPU，随后在2023年成立了DeepSeek，专注于推进AI技术发展。目前，两家公司在人力资源和计算资源方面保持密切合作。

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪 5万块GPU助力创新

DeepSeek在人才招聘上注重实际能力和求知欲望，经常在北京大学和浙江大学举办招聘活动。公司提供极具竞争力的薪酬待遇，优秀候选人年薪可达130万美元以上。这种灵活的人才战略使得DeepSeek能够快速扩张。

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪 5万块GPU助力创新

DeepSeek的成功不仅在于资金充足，还在于高效的运营模式。相较于大公司的繁琐决策流程，DeepSeek能更快地将创新理念付诸实践。他们主要依靠自建数据中心进行技术创新，这为他们在整个技术栈上提供了更大的实验空间。

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪 5万块GPU助力创新

尽管论文中提到的600万美元仅指预训练阶段的直接成本，但高级分析师认为，DeepSeek在硬件方面的累计投资已远超5亿美元。例如，多头潜注意力机制的开发耗时数月，消耗了大量资源。随着算法优化，训练和推理同等性能所需的计算资源不断减少，这种趋势在行业内屡见不鲜。

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪 5万块GPU助力创新

R1在短时间内实现了与o1相当的性能水平，得益于新的“推理”范式。这种方法通过合成数据生成和后训练强化学习来提升推理能力，以更低成本获得快速进展。谷歌的Gemini Flash 2.0 Thinking也在基准测试中表现优异，但在市场策略和用户体验上有所欠缺。

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪 5万块GPU助力创新

DeepSeek的技术突破，如多Token预测（MTP）和混合专家模型（MoE），引起了西方实验室的关注。这些创新提高了训练效率并降低了推理成本。R1的成功还得益于强大的基础模型V3和强化学习的应用。

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪 5万块GPU助力创新

多头潜注意力机制（MLA）显著减少了每次查询所需的KV缓存量，降低了运营成本。这项创新特别受到美国顶级实验室的关注。此外，由于H20芯片具有更高的内存带宽和容量，DeepSeek在推理工作负载方面获得了更多效率提升。

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪 5万块GPU助力创新

R1虽然在性能上接近o1，但成本更低，这符合市场逻辑。率先突破新能力层次的公司将获得价格溢价，而追赶者只能获得适度利润。当前正处于技术快速迭代的周期，产品更新换代速度前所未有。未来，开源模型市场将在下一代技术中迅速商品化，计算资源的集中度仍将是关键因素。

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150 天才集结，开出千万年薪 5万块GPU助力创新

责任编辑：张蕾

主题测试文章，只做测试使用。发布者：火星财经，转转请注明出处：https://www.sengcheng.com/article/16592.html

赞 (0)

0 0

唐探成为中国影史首个百亿票房系列电影《唐探1900》助力突破

上一篇 2025年2月1日下午1:58

马刺轰24记三分大胜雄鹿创队史纪录

下一篇 2025年2月1日下午1:58

社会

男子回家遇战机从头顶掠过羡慕坏了

男子回家遇战机从头顶掠过羡慕坏了能开这个回家过年就好了!1月18日广东惠州,开车回家过年，男子高速上遇战机从头顶掠过 ,羡慕坏了! 男子回家遇战机从头顶掠过羡慕坏了责任编辑：张蕾

火星财经
2025年1月20日
11000
社会

男子谎称未婚诈骗女友钱财已婚骗子落网

已婚男子田某谎称自己未婚，在网络交友平台上结识了李女士，并与对方发展成恋人关系。之后，田某编造理由诈骗李女士20余万元。1月21日，万柏林警方通报，田某已被长风责任区刑警队民警抓获。李女士在2024年8月通过网络交友平台与田某相识，两人很快发展为恋爱关系。一段时间后，田某声称自己的银行卡因故被冻结，需要制作“转账流水”解冻，请求李女士给他转账。热恋中的李女…

火星财经
2025年1月22日
11000
社会

红包雨将至官方曝光多款涉诈App 警惕虚假福利陷阱

临近春节，大家纷纷开始购车票、囤年货，各种过年仪式感拉满。然而，一些不法分子也会趁机而动，在大家放松警惕时骗取钱财。最近各平台的抢红包方式花样百出，这时一些虚假红包诈骗也再度来袭。例如，“五行红包”App谎称与国家合作发放“红包”补贴，贩卖“金木水火土”五种红包，声称集齐五行红包就能提现巨额现金。用户一旦进行“提现”操作，App便以保障交易安全为由，要求用…

火星财经
2025年1月27日
11000
社会

日本全日空一客机滑行时机翼与廊桥相撞无人受伤

总台报道员当地时间2月2日获悉，当天上午，一架全日空客机在福岛机场着陆后，在滑行至停机位的过程中，机翼与廊桥相撞。机上共载有24名乘客和4名机组人员，无人受伤。全日空方面正在对机体情况以及发生碰撞的原因等展开调查。（总台报道员柏春洋）责任编辑：梁云娇 CN079

火星财经
2025年2月2日
1000
社会

美客机坠河前男子收到妻子发的短信最后时刻的信息

当地时间1月29日，美国一架客机与“黑鹰”直升机在首都华盛顿里根国家机场附近相撞后坠入波托马克河中。一位正在机场等候的男子表示，他的妻子当时就在失事客机上，并且在客机坠毁前给他发了短信。他祈祷有人能把她从河里救出来。这位男子还展示了他和妻子的短信记录，显示她曾告诉他将在20分钟后降落。据媒体报道，目前发现了18具遇难者遗体，暂未发现幸存者。责任编辑：张蕾

火星财经
2025年1月30日
7000

发表回复

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信