滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

DeepSeek大爆出圈,现在连夜发布新模型——

多模态Janus-Pro-7B,发布即开源。

在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

想必大家这几天完全被DeepSeek刷屏了吧。

它长时间霸榜热搜第一,甚至AI第一股英伟达直接被干崩了——最大跌幅近17%,一夜蒸发5890亿美元(约合人民币4.24万亿元),创下美股单日跌幅最大纪录。

而Deepseek神话还在继续,春节假期中全国人民都开始体验了,Deepseek服务器还一度卡到宕机。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

值得一提,同一夜,阿里旗下大模型通义千问Qwen也更新了自己的开源家族:

视觉语言模型Qwen2.5-VL,包括3B、7B 和 72B三种尺寸。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

真~今夜杭州都不睡,起舞竞速大模型。

DeepSeek连夜发布新模型

先来看看DeepSeek新模型,这其实是此前Janus、JanusFlow的高级版本和延续。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

一作为博士毕业于北大的陈小康。

具体来说,它基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base构建的,是一个统一理解和生成的多模态大模型。整个模型采用自回归框架。

它通过将视觉编码解耦为单独的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。

这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

对于多模态理解,它使用SigLIP-L作为视觉编码器,支持 384 x 384 图像输入。对于图像生成,Janus-Pro使用LIamaGen中的VQ标记器,将图像转换为离散的ID,下采样率为16。

ID序列被扁平化为一维后,他们使用生成适配器将每个ID对应的代码库嵌入映射到 LLM 的输入空间中。然后,将这些特征序列连接起来,形成一个多模态特征序列,随后将其输入 LLM 进行处理。

除了 LLM 内置的预测头,还在视觉生成任务中使用随机初始化的预测头进行图像预测。

相较于前一个版本Janus的三个训练阶段,团队发现这一训练策略并不理想,会大大降低计算效率。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

对此,他们做了两处大的修改。

第一阶段Stage I的长时间训练:增加了第一阶段的训练步骤,以便在 ImageNet 数据集上进行充分的训练。研究结果表明,即使在 LLM 参数固定的情况下,模型也能有效地模拟像素依赖性,并根据类别名称生成合理的图像。

第二阶段Stage II:的集中训练:在第二阶段,放弃了 ImageNet 数据,直接利用常规文本到图像数据来训练模型,以生成基于密集描述的图像。

此外在第三阶段的监督微调过程中,还调整了不同类型数据集的数据比例,将多模态数据、纯文本数据和文本图像数据的比例从 7:3:10 调整为 5:1:4。

通过略微降低文本到图像数据的比例发现,这一调整可以让在保持强大的视觉生成能力的同时,提高多模态理解性能。

最终结果显示,实现了与现有视觉理解生成SOTA模型持平的水准。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的
△GenEval基准

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的
△DPG-Bench基准

与上一个版本 Janus相比,它可以为简短提示提供更稳定的输出,具有更好的视觉质量、更丰富的细节以及生成简单文本的能力。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

更多多模态理解和视觉生成能力的定性结果。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

DeepSeek征服全球用户

想必这两天一定是被DeepSeek刷屏了——

是科技圈非科技圈、七大姑八大姨都搁那讨论的程度。

像同为杭州六小龙的游戏科学,其创始人CEO、《黑神话:悟空》制作人也专门发微博支持:顶级科技成果,六大突破。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

还有DeepSeek自称MOSS,也被流浪地球导演郭帆注意到了。

好好好,DeepSeek是不是直接预订下一部主角了(Doge)。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

而这故事的一开始,正是前几天刚刚开源的推理模型R1,以其低廉的成本、免费的使用以及完全不输o1的性能,征服了全球用户,直接引发行业地震。

仅仅花费560万美元训练的R1,相当于Meta GenAI团队任一高管的薪资,在很多AI基准测试中已经达到甚至超越OpenAI o1模型。

而且DeepSeek是真的免费,而ChatGPT虽然在免费榜上,但要是想解锁它的完全体,还是要掏上200美元。

于是乎,大家开始纷纷转向DeepSeek来构建一切,也就迅速登顶美区苹果应用商店免费App排行第一,超越了ChatGPT和Meta的Threads等热门应用。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

用户量的激增也导致DeepSeek服务器多次宕机,官方不得不紧急维护。

而聚焦于行业内,大家对于DeepSeek的关注,在于如何在有限的资源成本情况下,实现与OpenAI持平的水准。

相比于国外动辄百亿千亿美元成本、几十上百万张卡这种粗放的模式,用DeepSeek很多技术细节都放在如何降低成本开销上。

比如蒸馏。R1总共开源了6个在R1数据上的蒸馏小模型,蒸馏版Qwen-1.5B都能在部分任务上超过GPT-4o。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

还有就是纯强化学习,抛弃SFT环节,通过数千次的强化学习来提升模型的推理能力,然后在AIME 2024上的得分与OpenAI-o1-0912的表现相当。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

也正因为这样,让人不免想到OpenAI前几天砸5000亿美元建数据中心以及英伟达长时间以来在高端GPU的垄断地位。

拿5000亿美元建数据中心,是有必要的吗?

大规模的AI算力投资,是有必要的吗?

这样的讨论,在资本市场得到了响应。美股开盘后,英伟达股价暴跌17%,创下自2020年3月以来最大跌幅,市值蒸发近6000亿美元,老黄自己的个人财富一夜之间也缩水了超130亿美元。

博通、AMD等芯片巨头也纷纷大幅下跌。

对此,英伟达公开回应称,DeepSeek是一项卓越的人工智能进展,也是测试时扩展的绝佳范例。DeepSeek的研究展示了如何运用该技术,借助广泛可用的模型以及完全符合出口管制规定的算力,创建新模型。推理过程需要大量英伟达 GPU和高性能网络。如今我们有三条扩展定律:持续适用的预训练和后训练定律,以及新的测试时扩展定律。

同样被动摇的还有Meta、OpenAI。

Meta内部甚至成立了专门的研究小组,试图剖析DeepSeek的技术细节,以改进其Llama系列模型,并且新年计划中预算4000亿起步搞AI,年底AI算力将达130万卡。

奥特曼也紧急透露新模型o3-mini即将免费上线ChatGPT的消息,试图挽回一点市场热度。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

现在有了新模型发布,关于DeepSeek的讨论还在继续。

DeepSeek新版本疑似很快发布,时间是2025年2月25日。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

杭州昨夜不眠

同一个夜晚,同一个杭州。

就在DeepSeek新模型发布不久,Qwen也更新了自己的开源家族:

Qwen2.5-VL。

滚烫Deepseek一夜刀掉英伟达4万亿 除夕又搞了个大的

这个标题怎么有三体那味了。

它有3B、7B 和 72B三种尺寸,可以支持视觉理解事物、Agent、理解长视频并且捕捉事件,结构化输出等等。

(详情内容可以参考下一篇推文)

ps,最后,继杭州六小龙之后,广东AI三杰也出现了。

(杭州六小龙分别是游戏科学、DeepSeek、宇树科技、云深处科技、强脑科技和群核科技)

他们分别是湛江人梁文锋(DeepSeek创始人),汕头人杨植麟(月之暗面、Kimi创始人)以及AI学术大佬广州人何恺明。

主题测试文章,只做测试使用。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/article/14274.html

(0)
火星财经的头像火星财经
上一篇 2025年1月28日 下午3:00
下一篇 2025年1月28日 下午3:00

相关推荐

  • 全球最赚钱AI产品公布:百度文库位列第二 是唯一入选的国内应用

    1月27日消息,AI产品榜官方发布全球AI产品2024付费用户规模榜单。 数据显示,百度文库付费用户达4000万,位列国内第一、全球第二,仅次于微软Copilot。由此可见,百度文库已成为唯一商业化的中国AI应用。 AI产品榜指出,付费用户才是真用户,用户用付费行为跨越了感兴趣和真正需要之间的鸿沟。经大模型重构下,百度文库进化为一站式AI内容获取和创作平台,…

    2025年1月27日
    2600
  • 马斯克惹怒加拿大人!超15万人请愿撤销其公民身份

    财联社2月24日讯(编辑 卞纯)近日,加拿大民众发起国会请愿书,呼吁撤销埃隆马斯克的加拿大公民身份,理由是马斯克在特朗普政府中扮演的角色明显威胁加拿大主权。 请愿书称,马斯克在特朗普政府中利用其财富和权力影响加拿大的选举,从事了违背加拿大国家利益的活动。 请愿书要求加拿大总理贾斯汀特鲁多撤销马斯克的公民身份和加拿大护照。 他现在已经成为一个试图抹杀加拿大主权…

    2025年2月24日
    1600
  • 首座3000米以上隧道!雄忻高铁山西段紫罗山1号隧道顺利贯通

    3月5日消息,据报道,历经731个日夜的奋战,雄忻高铁(山西段)紫罗山1号隧道顺利贯通。这是雄忻高铁贯通的首座3000米以上隧道,为后续架梁施工奠定了坚实基础。 紫罗山1号隧道位于山西省忻州市五台县紫罗山东南部,全长3118.57米,最大埋深达139.1米。 施工过程中,建设团队面临诸多挑战,洞身围岩破碎、稳定性差,进口段为疏松黄土层,开挖时极易出现洞口滑塌…

    2025年3月5日
    1500
  • 轰动美国硅谷的DeepSeek创始人梁文锋来自广东湛江吴川:今年回老家过年

    1月27日消息,近日,一名叫梁文锋的85后登上《新闻联播》,以AI初创公司深度求索(DeepSeek)创始人的身份参加座谈会,并现场发言。 近日,梁文锋和团队开发的大模型DeepSeek-R1发布,这款大模型以低成本、高性能以及开源模式迅速轰动美国硅谷、震惊全球,被海外称作来自东方的神秘力量。 公开资料显示,梁文锋的老家是广东湛江吴川,浙江大学毕业,拥有信息…

    2025年1月27日
    1900
  • 奔驰G级家族添新丁!“小号G级”即将亮相 价格更亲民

    2月23日消息,奔驰官方最近发布了G级家族的新成员信息,一款基于MMA架构的小号G级车型即将亮相,并为其命名为g级。 这款新车将与3月发布的全新奔驰CLA共享平台,提供纯电动、轻混及插电混动等多种动力版本,并支持800V技术和L2++智能驾驶系统。 预计小号G级也将提供丰富的动力选择,可能采用承载式车身设计,并有望推出三门版车型。 奔驰的产品计划显示,202…

    2025年2月23日
    1800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信