媒体：DeepSeek不需要被神话理性看待其成就

火星财经 • 2025年1月27日下午10:58 • 社会 • 阅读 26

1月27日，DeepSeek AI智能助手登上中美iOS免费应用排行榜榜首，这是中国应用首次取得这一成绩。与此同时，与该公司相关的多个词条进入微博热搜，其中一条是“DeepSeek彻底爆发”。这背后反映了开源模型追赶甚至超越闭源模型的情绪。

事实上，DeepSeek在这几天并没有特别的动作，将其推上舆论中心的力量主要来自Meta。三天前，在美国匿名职场社区teamblind上，有Meta员工表示，DeepSeek的低成本训练工作让Meta的生成式AI团队感到恐慌，工程师们正努力分析DeepSeek，试图从中复制任何可能的东西。随后，Meta首席人工智能科学家杨立昆在X平台上表示，对于认为“中国在人工智能领域正在超越美国”的人，正确的看法是“开源模型正在超越闭源模型”。

DeepSeek并不是突然崛起。从DeepSeek-V2开始，这家公司已被硅谷视为一股神秘力量。它在国内大模型行业率先发起了一场真正意义上的“降价潮”，凭借“MoE+MLA”架构创新实现了成本降低。近期热议的原因在于它在过去一个月内相继发布了DeepSeek-V3和R1两款大模型产品。

2024年底，DeepSeek发布新一代MoE模型DeepSeek-V3，拥有6710亿参数，激活参数为370亿，在14.8万亿token上进行了预训练。V3在知识类任务上接近当前表现最好的Claude-3.5-Sonnet-1022，在代码能力上稍好于后者，并且在数学能力上领先其他开闭源模型。更重要的是，DeepSeek-V3的总训练成本仅为557.6万美元，完整训练消耗了278.8万个GPU小时，几乎是同等性能水平模型所需成本的十分之一。

一周前，DeepSeek发布了推理模型R1，其性能对齐OpenAI-o1正式版，并同步开源模型权重。R1在多项任务上与OpenAI-o1-1217基本持平，尤其在AIME 2024、MATH-500、SWE-Bench Verified三项测试集上以微弱优势取胜。此外，R1还开源了仅通过强化学习训练的大语言模型R1-Zero，尽管没有人类监督数据介入，但该模型足以对标OpenAI-o1-0912，探索出仅通过强化学习就能获得推理能力的技术可能性。

一名大模型行业投资人表示，虽然DeepSeek-V3是目前最好的开源模型，但说它能与头部闭源模型抗衡还为时尚早。杨立昆也指出，DeepSeek受益于开源研究和技术，提出了新想法并基于他人的工作进行创新，所有人均能从中获益。

R1在没有复杂技术的前提下实现了o1水平的推理性能，学会了长链推理和反思。不过，一些行业人士认为R1可能存在局限，特别是在过程奖励和树搜索技术方面。最近OpenAI发布的o3和o3-mini性能大幅提升，显示国内大模型公司仍有加速创新的压力。

除了技术讨论，DeepSeek的战略性上线C端智能助手应用也让大众直观感受到V3和R1的技术价值，一度导致服务“宕机”。用户普遍强调其性能强大、价格便宜，但也存在一些短板。

从公司发展角度看，DeepSeek证明了一个短小精悍、扁平高效的组织架构可能是面向AGI的大模型研发的有效创业形态。Meta计划在2025年投入超过600亿美元用于人工智能，进一步凸显了DeepSeek低训练成本和高创新效率的价值。

如今，DeepSeek已成为中国企业中可以与OpenAI、Meta等公司竞争的存在，但它无需被神话。创始人梁文峰表示，随着经济发展，中国也要逐步成为贡献者，而不是一直搭便车。

责任编辑：张佳鑫 0764

主题测试文章，只做测试使用。发布者：火星财经，转转请注明出处：https://www.sengcheng.com/article/13760.html

媒体：DeepSeek不需要被神话理性看待其成就

发表回复

联系我们

400-800-8888

媒体：DeepSeek不需要被神话 理性看待其成就

相关推荐

美国环保署或将解雇1100多名员工 裁员计划启动

乌称乌多地因遭俄导弹袭击紧急断电 多地伤亡报告陆续传来

河南多条高速路段禁止车辆上站 因降雪影响通行

《如意舞步》作曲人揭秘背后故事 春晚舞台上的深圳创新活力

黄旭华捐献个人奖金超2000万 激励科研创新

发表回复

联系我们

400-800-8888

媒体：DeepSeek不需要被神话理性看待其成就

美国环保署或将解雇1100多名员工裁员计划启动

乌称乌多地因遭俄导弹袭击紧急断电多地伤亡报告陆续传来

河南多条高速路段禁止车辆上站因降雪影响通行

《如意舞步》作曲人揭秘背后故事春晚舞台上的深圳创新活力

黄旭华捐献个人奖金超2000万激励科研创新