中国公司DeepSeek在华尔街周一紧张评估“DeepSeek风暴”时,推出了新产品:开源的多模态大模型Janus-Pro。这款模型在图像生成基准测试中超越了OpenAI的DALL-E 3。
除夕夜前夕,DeepSeek工程师们在“抱抱脸”平台上发布了Janus Pro 7B和1.5B模型,这是对去年10月发布的Janus模型的升级。这两个模型分别具有15亿和70亿参数量,可以在消费级电脑上本地运行。与之前的版本一样,Janus Pro采用MIT许可证,在商用方面没有限制。
据介绍,Janus-Pro采用了新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分为“理解”和“生成”两条路径,并使用单一的Transformer架构处理,解决了以往方法的局限性。这种设计不仅缓解了视觉编码器在理解和生成中的角色冲突,还提高了框架的灵活性。
从报告给出的数据来看,Janus-Pro 70亿参数模型在部分文生图基准测试中表现优于OpenAI的DALL-E 3和Stability AI的Stable Diffusion 3-Medium。尽管DALL-E 3是2023年发布的老模型,且Janus Pro目前只能分析和生成较小规格的图像(384 x 384),但其性能仍然令人印象深刻。
技术报告显示,Janus-Pro在视觉生成方面通过添加7200万张高质量合成图像,使得真实数据与合成数据的比例达到1:1,从而实现更具视觉吸引力和稳定性的图像输出。此外,新模型在多模态理解的训练数据方面参考了DeepSeek VL2并增加了约9000万个样本。
作为多模态模型,Janus-Pro不仅可以“文生图”,还能对图片进行描述、识别地标景点(如杭州西湖)、识别图像中的文字,并能介绍图片中的知识(例如“猫和老鼠”蛋糕)。公司也在报告中展示了更多图像生成的案例。
主题测试文章,只做测试使用。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/article/13905.html