DeepSeek深夜发布多模态大模型超越DALL-E 3

火星财经 • 2025年1月28日上午10:25 • 社会 • 阅读 20

中国公司DeepSeek在华尔街周一评估“DeepSeek风暴”时，发布了其最新产品：名为Janus-Pro的多模态大模型。该模型在图像生成基准测试中超越了OpenAI的DALL-E 3，并且是开源的。

DeepSeek深夜发布多模态大模型

除夕凌晨钟声敲响前不久，DeepSeek工程师们在“抱抱脸”平台上传了Janus Pro 7B和1.5B两个模型，这是对去年10月发布的Janus模型的升级。这两个模型具有15亿和70亿参数量，可以在消费级电脑上本地运行。与之前的版本一样，Janus Pro采用MIT许可证，在商用方面没有限制。

DeepSeek深夜发布多模态大模型超越DALL-E 3

据DeepSeek介绍，Janus-Pro是一个新颖的自回归框架，统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径，同时仍采用单一的Transformer架构进行处理，解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突，还提升了框架的灵活性。

DeepSeek深夜发布多模态大模型超越DALL-E 3

从报告给出的数据来看，在部分文生图基准测试中，Janus-Pro 70亿参数模型的表现优于OpenAI的DALL-E 3和Stability AI的Stable Diffusion 3-Medium等模型。尽管DALL-E 3是OpenAI在2023年发布的一款老模型，而Janus Pro目前只能分析和生成规格较小的图像（384 x 384），但其在如此紧凑的模型尺寸中依然展现了令人印象深刻的性能。

DeepSeek深夜发布多模态大模型超越DALL-E 3