DeepSeek正成为AI领域崛起的新星,打破了国内大模型的原有格局。本周,DeepSeek发布了DeepSeek-R1,并同步开源了模型权重。DeepSeek-R1遵循MIT License,允许用户通过蒸馏技术借助R1训练其他模型。
DeepSeek-R1上线了API,对用户开放思维链输出,设置model=’deepseek-reasoner’即可调用。该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能与OpenAI o1正式版相当。同时,DeepSeek开源了两个660B模型,并通过DeepSeek-R1的输出蒸馏出六个小模型,其中32B和70B模型在多项能力上实现了对标OpenAI o1-mini的效果。
DeepSeek-R1 API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。DeepSeek在美国科技界引起震动,不仅因为其性能与OpenAI的o1相当且完全开源,还以极低成本实现了这一突破。知名投资人马克·安德森表示,DeepSeek R1是他见过最令人惊叹和印象深刻的突破之一,作为开源项目,这是给世界的一份重要礼物。
Scale AI创始人亚历山大·王认为,过去十年美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的发布可能会改变这一局面。DeepSeek-R1与GPT-4o和Claude 3.5 Sonnet相当,训练时计算量减少10倍。这表明在美国人休息时,中国人在工作,并以更便宜、更快、更强的产品迎头赶上。
DeepSeek的动作让Meta的生成式AI团队感到恐慌。Meta CEO扎克伯格宣布加速研发Llama 4,计划投资650亿美元扩建数据中心,并部署130万枚GPU,以确保2025年Meta AI成为全球领先模型。
DeepSeek创始人梁文锋迅速在AI圈内确立地位。梁文锋本硕均就读于浙江大学信息与电子工程学专业。2015年,他与校友共同创立幻方量化。2021年,幻方量化成为国内首家突破千亿规模的量化私募大厂,被称为国内量化私募“四大天王”之一。早年,幻方量化开始大规模布局AI算力,搭建起“萤火一号”集群。2021年,“萤火二号”落成,为DeepSeek提供了快速发展的基础。
DeepSeek团队在预训练方面贡献巨大,包括超强的训练稳定度、深入使用fb8混合精度、多词同时预测、隐空间多注意力头、MOE混合专家等,大大降低了训练成本。他们仅用600万美元就训练出了一个600B的大模型,被视作工程上的奇迹。
分析人士指出,DeepSeek用较低的成本训练出比肩OpenAI o1水平的模型R1,而且R1还开源,这意味着算法有很大的提升空间,不需要那么多GPU和算力。封锁芯片和搞算力壁垒的思路行不通,而依赖大量GPU堆砌效果的模式也受到挑战。DeepSeek的出现可能导致许多购买了数千块NVIDIA芯片的AI初创公司破产,从而导致大量NVIDIA GPU流入二手市场。此外,一些运营数据中心并出租NVIDIA GPU的初创公司也可能受到影响。
这可能刺激更多专用推理模型诞生,创业公司和个人App可能会大幅减少在OpenAI API上的支出,转向开源。评论人士称,DeepSeek整合搜索信息的能力强于某些现有模型,让人对英伟达股价产生怀疑。中美科技底层差距虽然大,但中国拥有巨大的人才红利,有超过6000万工程师,超过美德日韩印总和,这是继续发展的底气和希望。
主题测试文章,只做测试使用。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/article/12450.html