让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

1月17日消息,在AI领域,DeepSeek带来的影响力,一点也不亚于六代机。那么,DeepSeek究竟厉害在哪里?

据新浪科技报道,今日,中国工程院院士、清华大学计算机系教授郑纬民指出了DeepSeek其成功出圈的关键所在。

让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

目前,业界对于DeepSeek的喜爱与赞美,主要集中在三个方面。

第一,在技术层面,DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模型,分别实现了比肩OpenAI 4o和o1模型的能力。

第二,DeepSeek研发的这两款模型成本更低,仅为OpenAI 4o和o1模型的十分之一左右。

第三,DeepSeek把这一两大模型的技术都开源了,这让更多的AI团队,能够基于最先进同时成本最低的模型,开发更多的AI原生应用。

DeepSeek是如何实现模型成本的降低的呢?郑纬民指出,DeepSeek自研的MLA架构和DeepSeek MOE架构,为其自身的模型训练成本下降,起到了关键作用。

他指出,MLA主要通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN 层的改造相配合,实现了一个非常大的稀疏MoE 层,这成为DeepSeek训练成本低最关键的原因。

据了解,KV Cache是一种优化技术,常被用于存储人工智能模型运行时产生的token的键值对(即key- value数值),以提高计算效率。

具体而言,在模型运算过程中,KV cache会在模型运算过程中充当一个内存库的角色,以存储模型之前处理过的token键值,通过模型运算计算出注意力分数,有效控制被存储token的输入输出,通过以存换算避免了多数大模型运算每次都是从第一个token开始运算的重复计算,提升了算力使用效率。

此外,据郑纬民透露,DeepSeek还解决了非常大同时非常稀疏的MoE模型使用的性能难题,而这也成了DeepSeek训练成本低最关键的原因

DeepSeek比较厉害的是训练MoE的能力,成为公开MoE模型训练中第一个能训练成功这么大MoE的企业。郑纬民说

此外,DeepSeek还充分利用专家网络被稀疏激活的设计,限制了每个token被发送往GPU集群节点(node)的数量,这使得GPU之间通信开销稳定在较低的水位。

早先,图灵奖得主、主导Meta AI研究的首席科学家杨立昆(Yann LeCun)认为,DeepSeek成功的最大收获并非中国竞争对其他国家带来更大威胁,而是AI开源的价值使任何人都能受益。

对那些看到DeepSeek表现并认为‘中国在AI领域正超越美国’的人而言,你的解读错了,杨立昆在Threads写道,正确解读应是‘开源模型正超越专有模型’。

让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/13294.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年1月27日 下午3:00
下一篇 2025年1月27日 下午3:00

相关推荐

  • 首款天玑9400+性能旗舰!真我GT7跑分曝光:单核2300分

    4月14日消息,真我旗下新一代性能旗舰机型真我GT7的Geekbench 跑分曝光,作为首批搭载天玑9400+芯片的性能旗舰,其单核跑分为2300分,多核7651分,性能表现亮眼。 天玑9400+基于台积电3nm工艺制程打造,拥有更高的主频和更出色的能效比,采用1颗3.73GHz超大核、3颗3.30GHz大核及4颗2.4GHz核心的三丛集架构,GPU为 Ma…

    2025年4月14日
    13800
  • 《空洞骑士:丝之歌》太火爆催生骗局:免费送游戏的骗术让许多玩家上当

    近日,《空洞骑士:丝之歌》在Steam平台正式发售,游戏热度空前,甚至引发了一系列利用玩家热情进行的诈骗活动。 据部分玩家反馈,在Steam社区中,出现了一些声称可免费赠送游戏的账号,诱骗用户以Steam点数作为交换条件。 由于本作备受期待,大量玩家轻信此类骗局,导致数百万Steam点数被转出,却未能获得游戏。 这一骗局很快被识破。据消息人士aEsir透露,…

    2025年9月8日
    6400
  • 8.98万起 新款欧拉好猫预售:呆萌可爱 小姐姐又能换车了

    6月13日消息,2025款欧拉好猫开启预售,3款车型,预售价8.98-10.98万元,与此同时,GT木兰版同步开卖,共计推出2款车型,预售价10.28-11.28万元。 作为对比,2024款欧拉好猫的指导售价为10.58-13.58万元,新款价格已经降低不少,预计新车正式上市后还会有个惊喜。 欧拉好猫定位纯电轿车,新车长宽高分别为4242/1825/1632…

    2025年6月13日
    13100
  • 误将酒精测试结果认成罚款金额:醉酒司机要给交警转143元

    5月10日消息,这是真的喝醉了,竟然连现实情况都分不清。 本月4日凌晨03:50分许,,新疆乌什县交警开展酒醉驾整治,在对一辆小车进行检查时,发现开车的男子身上酒气浓烈,遂对其进行呼气检测,结果高达143mg/100ml,涉嫌醉驾。 而男子显然醉得有点懵,以为143是罚款金额,直接表示:等下我把那个(143块)罚款转红包给你​,一句话顿时让交警哭…

    2025年5月10日
    17700
  • 华硕第一次把背插主板给了AMD!自带600W显卡供电插槽

    3月28日消息,华硕低调推出了采用背插设计的TUF GAMING B850-BTF WIFI W主板,不但是B850的第一次,事实上也是华硕的第一款AMD平台背插主板。 该主板的供电、硬盘、输入输出、风扇等接口都设置在背面,因此正面非常简洁,再加上白色风格,装机颜值妥妥的在线。 同时,PCIe 5.0 x16显卡插槽末尾增加了华硕自行设计的GC-HPWR插槽…

    2025年3月28日
    10500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信