让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

1月17日消息,在AI领域,DeepSeek带来的影响力,一点也不亚于六代机。那么,DeepSeek究竟厉害在哪里?

据新浪科技报道,今日,中国工程院院士、清华大学计算机系教授郑纬民指出了DeepSeek其成功出圈的关键所在。

让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

目前,业界对于DeepSeek的喜爱与赞美,主要集中在三个方面。

第一,在技术层面,DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模型,分别实现了比肩OpenAI 4o和o1模型的能力。

第二,DeepSeek研发的这两款模型成本更低,仅为OpenAI 4o和o1模型的十分之一左右。

第三,DeepSeek把这一两大模型的技术都开源了,这让更多的AI团队,能够基于最先进同时成本最低的模型,开发更多的AI原生应用。

DeepSeek是如何实现模型成本的降低的呢?郑纬民指出,DeepSeek自研的MLA架构和DeepSeek MOE架构,为其自身的模型训练成本下降,起到了关键作用。

他指出,MLA主要通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN 层的改造相配合,实现了一个非常大的稀疏MoE 层,这成为DeepSeek训练成本低最关键的原因。

据了解,KV Cache是一种优化技术,常被用于存储人工智能模型运行时产生的token的键值对(即key- value数值),以提高计算效率。

具体而言,在模型运算过程中,KV cache会在模型运算过程中充当一个内存库的角色,以存储模型之前处理过的token键值,通过模型运算计算出注意力分数,有效控制被存储token的输入输出,通过以存换算避免了多数大模型运算每次都是从第一个token开始运算的重复计算,提升了算力使用效率。

此外,据郑纬民透露,DeepSeek还解决了非常大同时非常稀疏的MoE模型使用的性能难题,而这也成了DeepSeek训练成本低最关键的原因

DeepSeek比较厉害的是训练MoE的能力,成为公开MoE模型训练中第一个能训练成功这么大MoE的企业。郑纬民说

此外,DeepSeek还充分利用专家网络被稀疏激活的设计,限制了每个token被发送往GPU集群节点(node)的数量,这使得GPU之间通信开销稳定在较低的水位。

早先,图灵奖得主、主导Meta AI研究的首席科学家杨立昆(Yann LeCun)认为,DeepSeek成功的最大收获并非中国竞争对其他国家带来更大威胁,而是AI开源的价值使任何人都能受益。

对那些看到DeepSeek表现并认为‘中国在AI领域正超越美国’的人而言,你的解读错了,杨立昆在Threads写道,正确解读应是‘开源模型正超越专有模型’。

让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

主题测试文章,只做测试使用。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/article/13294.html

(0)
火星财经的头像火星财经
上一篇 2025年1月27日 下午3:00
下一篇 2025年1月27日 下午3:00

相关推荐

  • 高端新能源MPV销冠!全新岚图梦想家累计大定突破6.5万台

    2月25日消息,岚图汽车宣布,全新岚图梦想家累计大定订单突破6.5万台,单车均价超39万元,成为高端新能源MPV销量冠军。 此次发布的新车共推出四驱卓越乾崑版和四驱尊贵乾崑版两大版型,售价区间为35.99万至40.99万元。 此次发布的乾崑版车型在鲲鹏版基础上增加了华为乾崑ADS 3.0高阶智驾系统,并进行了智能舒适配置的多重升级。 外观上,新车新增宸星灰车…

    2025年2月25日
    2900
  • 三星首款三折叠手机Galaxy G Fold曝光:2025年Q3发布

    2月1日消息,三星首款三折叠手机Galaxy G Fold预计将于2025年第三季度发布。 据海外博主yeux1122透露,三星首款三折叠手机将被命名为Galaxy G Fold。 据悉,手机将配备9.96英寸的显示屏,比三星Galaxy Z Fold 6的7.6英寸屏幕大了近30%。 其次,手机折叠后单块屏幕尺寸约为6.54英寸,与标准智能手机相似,重量与…

    2025年2月1日
    2100
  • 399元价格亲民!优派144Hz高刷显示器VA24G25首销:主打轻电竞

    2月1日消息,优派旗下型号为VA24G25的23.8英寸显示器现已首销,以1080P 144Hz为主打,定价为399元,是目前市场上最便宜的大厂高刷显示器之一。 优派VA24G25显示器配备1920×1080分辨率的144Hz(超频,原生120Hz)IPS面板,亮度400尼特,响应速度4ms,静态对比度1500:1。 虽然这款显示器采用6抖8(6-…

    2025年2月1日
    1900
  • 微软CEO:Xbox将运用生成式AI开发一系列视频游戏

    2月24日消息,据报道,近日,微软首席执行官萨蒂亚纳德拉(Satya Nadella)透露,公司计划推出一系列利用最新生成式人工智能模型Muse开发的视频游戏,这标志着AI技术在游戏领域的应用迈入新阶段。 本周早些时候,微软发布了Muse,这是一款能够生成游戏视觉效果、控制器动作,或者两者兼而有之的生成式AI模型。微软展示了Muse如何利用Ninja The…

    2025年2月24日
    2000
  • 小米YU7 Max实车上路!车漆质感细腻、全新括号转向灯亮了

    1月25日消息,近日,一组小米YU7实车上路的高清图在社交平台上曝光。 值得注意的是,照片车尾部有YU7 Max的标志,或意味着小米YU7也将延续SU7不同版本的命名方式,推出普通版和Pro、Max三种版本。 从照片中还可以看到,YU7新车车漆质感细腻,转向灯采用全新样式,面积较小,呈现括号形状,位于贯穿式尾灯的两端。 对于这一设计,有网友认为,括号转向灯的…

    2025年1月25日
    2100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信