DeepSeek甩出了一张“王炸”

12月26日消息,国产大模型DeepSeek推出DeepSeek-V3,一个强大的混合专家(Mixture-of-Experts, MoE)语言模型。主要的技术迭代是671B的MoE,37B的激活参数,在14.8万亿个高质量token上进行了预训练。

AI圈表示,圣诞节真的来了。

DeepSeek甩出了一张“王炸”

翻译翻译,首先,从训练时间看,正如DeepSeek在发布报告中指出的那样,尽管其表现出色,DeepSeek-V3的完整训练仅需2.788M H800 GPU小时。

打个比方,如果对标Llama 3 系列模型,其计算预算为 3930 万 H100 GPU Hours——大约可以训练 DeepSeek-V3 十五次。

DeepSeek甩出了一张“王炸”

从成本上看,如果我们假设H800 GPU的租金为每GPU小时2美元,DeepSeek-V3 的总训练成本仅为557.6万美元。

不仅如此,在最新发布的技术报告里,经过与DeepSeek-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513和Claude-3.5-Sonnet-1022几个模型的跑分,DeepSeek-V3 在多个性能基准测试中表现出色。

在MATH500、AIME2024和Codeforces三个维度更是遥遥领先,数学和编程能力极强,一度超过GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型。

虽然在某些语言理解和软件工程任务中稍有逊色,但也是TOP2尖子选手。

DeepSeek甩出了一张“王炸”

DeepSeek自言,这得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架构,实现了高效的推理和经济高效的训练。

又引入了辅助损失自由负载平衡策略和多token预测训练目标,提升了模型性能。同时,在14.8万亿个高质量token上进行了预训练时,通过监督微调和强化学习阶段充分挖掘了其潜力。

综合评估显示,DeepSeek-V3优于其他开源模型,性能接近领先的闭源模型。并且,训练过程非常稳定,没有遇到不可恢复的损失峰值或回滚。相比之下,在同一天,ChatGPT再次宕机,修复时间尚未确定。

Meta AI 研究科学家田渊栋在X上对 DeepSeek-V3 极有限的预算和强劲的表现深感惊喜。

DeepSeek甩出了一张“王炸”

曾为 Glean 和 Google Search 的创始团队成员的 VC Deedy更是将DeepSeek-V3赞为世界上最好的开源大模型。

DeepSeek甩出了一张“王炸”

DeepSeek-V3的基础模型以英语和中文为主的多语言语料库上进行预训练,因此主要在一系列以英语和中文为主的基准测试上评估其性能,同时也在一个多语言基准测试上进行评估。而基于其内部集成的HAI-LLM框架,具体跑分如下:

DeepSeek甩出了一张“王炸”

如上可以看到 V3 在英语、编程、数学、中文、多语言几个维度的表现。

英语(English):DeepSeek-V3 Base 在大多数测试中表现最佳,例如在 BBH(EM)、MMLU(EM)、MMLU-Redux(EM)、DROP(F1)、ARC-Easy(EM)、ARC-Challenge(EM)、HellaSwag(EM)、PIQA(EM)、WinoGrande(EM)、TriviaQA(EM) 和 AGIEval(EM) 等测试中。在 Pile-test(BPB) 基准测试中,DeepSeek-V3 Base 的得分为 0.548,也略高于其他模型。

代码(Code):DeepSeek-V3 Base 在 HumanEval(Pass@1)、MBPP(Pass@1)、LiveCodeBench-Base(Pass@1)、CRUXEval-I(EM) 和 CRUXEval-O(EM) 等测试中表现突出。

数学(Math):DeepSeek-V3 Base 在 GSM8K(EM)、MATH(EM)、MGSM(EM) 和 CMath(EM) 等测试中表现优异。

中文(Chinese):DeepSeek-V3 Base 在 CLUEWSC(EM)、C-Eval(EM)、CMMLU(EM)、CMRC(EM)、C3(EM) 和 CCPM(EM) 等测试中表现良好。

多语言(Multilingual):DeepSeek-V3 Base 在 MMMLU-non-English(EM) 测试中表现最佳。

由于DeepSeek大方开源,Open AI水灵灵地被网友cue进行横向对比,有一种被push的支配感。

DeepSeek甩出了一张“王炸”

不少玩家还在X上分享了自己的使用体验,认为DeepSeek-V3很聪明,并对Deepseek团队表示极大的尊重。

DeepSeek甩出了一张“王炸”

DeepSeek 是一家创新型科技公司,长久以来专注于开发先进的大语言模型(LLM)和相关技术,由知名私募巨头幻方量化孕育而生,作为大厂外唯一一家储备万张 A100 芯片的公司,幻方量化为DeepSeek的技术研发提供了强大的硬件支持。

早在通过开源大模型如 DeepSeek Coder 等,DeepSeek 就展示了在人工智能技术领域的实力。DeepSeek V2 模型的发布,更是提供了一种史无前例的性价比,推动了中国大模型价格战的发展,并因其创新的 MLA 架构和 DeepSeekMoESparse 结构而受到业界的广泛关注。

DeepSeek 被硅谷誉为来自东方的神秘力量,其 V2 模型论文在当时即被认为可能是今年最好的一篇。

半年后,DeepSeek 带着 V3 再次登场,用行动说明,中国大模型创业者,也可以加入到这场全球技术创新的 AI 竞赛中。

DeepSeek甩出了一张“王炸”

平台声明:该文观点仅代表作者本人,火星财经系信息发布平台。发布者:sengcheng,转转请注明出处:https://www.sengcheng.com/20645.html

(0)
sengcheng的头像sengcheng
上一篇 2024年12月29日 下午3:18
下一篇 2024年12月29日 下午3:18

相关推荐

  • 《白雪公主》真人电影新剧照:邪恶皇后照魔镜

    近日迪士尼《白雪公主》真人电影新剧照曝光,邪恶皇后出现在魔镜前。 还有张剧照中,白雪公主和男主角乔纳森牵手。 该片由瑞秋泽格勒(《饥饿游戏:鸣鸟与蛇之歌》)饰演白雪公主,神奇女侠盖尔加朵饰演反派恶毒皇后,安德鲁伯纳普(《继承》)饰演男主角、一个新角色。 马克韦布(《超凡蜘蛛侠》《和莎莫的500天》)执导,《爱乐之城》《马戏之王》词曲作者Benj Pasek和…

    2024年12月25日
    1900
  • 请回答2024,车圈营销的十大风向

    在2024年,中国汽车行业站在了变革的前沿。新兴企业的市场竞争、传统企业的数字化转型,以及一些企业的快速衰落,共同绘制出一幅宏大的行业图景。 同时,我们注意到中国汽车行业的营销模式正在发生显著变化。车企高管们亲自参与视频号直播和短视频营销,逆向流量操作和热点议程设置成为企业争夺舆论高地的新策略,AI技术在内容创作和精准投放中的应用逐渐成熟,内容营销形式从科普…

    市场 2024年12月18日
    2200
  • 增加230列!全国铁路明年1月5日实行新列车运行图

    12月22日消息,今日,中国铁路公众号宣布,2025年1月5日零时起,全国铁路将实行新的列车运行图。 调图后,全国铁路安排图定旅客列车13028列,较现图增加230列;开行货物列车22859列,较现图增加91列,铁路客货运输能力、服务品质和运行效率进一步提升。 据悉,新图车票将于12月22日起陆续发售。 实施新运行图后,在上海至郑州、武汉、福州等省会城市间增…

    2024年12月22日
    2900
  • TGA2024年度最佳动作游戏 黑神话悟空中文获奖感言:玩起来真不难

    12月13日消息,好消息传来,中国首款3A大作《黑神话:悟空》获评TGA2024最佳动作游戏。 英雄游戏创始人CEO、《黑神话:悟空》投资人吴旦Daniel以及《黑神话:悟空》策划负责人江柏村上台发表中文获奖感言。 江柏村称:非常荣幸能够获得这个奖项,首先要感谢每一位玩家,是你们的支持让这样一个关于勇气和智慧的东方神话得以在这样的一个舞台上绽放光彩,也要感谢…

    2024年12月13日
    2200
  • 大众追尾自燃起火负全责!小米SU7车主回应:人都安全 车子挺硬摄像头都没坏

    12月24日消息,据国内媒体报道称,一辆大众追尾小米SU7后起火,车主公开回应人都安全,自家车没大问题。 报道中提到,小米车主告诉记者,自己是因前方车主减速才急停刹车,自燃车车主当时就从车上下来了,人很安全。 他表示事故调查结果是后车追尾,承担全责。车子目前没什么大问题,小米SU7车子挺硬的(摄像头都没坏,还让追尾的车辆起火了。)。 从社交平台上网友晒出的现…

    2024年12月24日
    5000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信