眼下最受关注的AI新星、DeepSeek创始人梁文锋正与张一鸣背道而驰。1月28日,DeepSeek发布了新一代多模态大模型Janus-Pro,分为70亿和15亿参数量两个版本,并且均为开源。发布后不久,该模型便登上了知名AI开源社区Hugging Face的热门榜前列。
相比去年11月发布的JanusFlow,Janus-Pro优化了训练策略、扩展了训练数据,模型更大,在多模态理解和文本到图像的指令跟踪功能方面取得重大进步,同时增强了文本到图像生成的稳定性。根据DeepSeek的测试结果,这款文生图大模型在多项基准测试中表现出色,甚至强于OpenAI旗下的DALL-E 3以及Stable Diffusion。尽管用户指出Janus-Pro并不全面超越DALL-E 3,但其以较小的参数量展现了不俗潜力。
本月早些时候,DeepSeek还发布了R1大模型。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能号称可以比肩OpenAI当前最强的o1模型正式版。更重要的是,DeepSeek仅花费了相当于OpenAI零头的资金和资源,就拿出了堪与o1比肩的产品。这表明“小力出奇迹”的策略在DeepSeek身上屡试不爽。
这种低成本高效率的做法对行业产生了冲击。例如,1月27日美股交易中,英伟达股价暴跌17%,市值蒸发约4.3万亿人民币。然而,长期来看,芯片依然是AI大模型发展的基石,英伟达作为这一领域技术壁垒最坚固的公司,其“卖铲者”的长期价值依然坚挺。
字节跳动自2023年进军AI大模型以来,投入大量资金和资源,快速扩充AI业务矩阵,发布十几款大模型及十几个AI应用。尽管如此,“小力出奇迹”的DeepSeek让字节看似无可置疑的“大力”打法遭遇挑战。DeepSeek不仅在AI技术和产品上打破了旧思维,也在不经意间点破了“大力出奇迹”并非放诸四海皆准的商业真理。
Janus-Pro的成本相对较低,使用轻量级分布式训练框架,1.5B参数模型大约需要128张英伟达A100芯片训练7天,7B参数模型则需要256张A100芯片和14天训练时间。这样计算下来,模型训练成本可低至数万美元。性能方面,Janus-Pro通过将多模态理解和生成统一起来,提升了视觉编码解耦的能力。在实际应用中,无论是文生图还是图生文,Janus-Pro都表现良好。
Janus-Pro继承了DeepSeek的开源传统,使用MIT协议,个人和中小企业可以省去不少费用。此外,由于模型体量小,Janus-Pro可以在PC端安装并本地运行,进一步降低了使用成本。
相比之下,国外秉持“大力出奇迹”的OpenAI近期遇到一些问题。例如,其文生视频大模型Sora虽然震撼亮相,但随后效果不尽如人意,被谷歌等竞争对手抓住机会嘲讽。尽管如此,OpenAI仍坚持堆芯片、堆算力的路线,计划未来四年投资5000亿美元用于AI基础设施。
字节跳动的核心产品豆包大模型在知识、代码、推理等多项公开测评基准上得分优于GPT-4o和DeepSeek-V3,但其投入同样惊人。据传今年将投入超过120亿美元用于AI基础设施,不过字节对此回应称相关消息并不准确。
DeepSeek通过“小力出奇迹”的方式展示了新的技术路线和商业哲学,打破了传统的大厂主导逻辑。这表明中小厂商完全可以用更少的资源做出更好的产品,从而得到市场和投资者的认可。
主题测试文章,只做测试使用。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/article/15229.html