国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

3月2日消息,日前摩尔线程宣布,随着DeepSeek开源周收官,摩尔线程在短时间内,成功实现对DeepSeek各个开源项目的全面支持,涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统(3FS)。

摩尔线程表示,这一成果充分验证了MUSA架构和全功能GPU在生态兼容与快速适配方面的强大优势。

以下是摩尔线程支持DeepSeek开源周全家桶代码合集:

FlashMLA:

FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。

摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持了FlashMLA。

借助MUTLASS 0.2.0,摩尔线程发布开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。

MT-FlashMLA开源地址:

https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3地址:

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

DeepEP:

DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。

它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,第一时间适配了DeepEP。

MT-DeepEP开源地址:

https://github.com/MooreThreads/MT-DeepEP

DeepGEMM:

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为V3/R1的训练与推理提供强大动力。

这个开源仓库基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发,摩尔线程基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。

MUTLASS FP8 GEMM地址:

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

DualPipe:

DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了流水线气泡(设备空闲等待)。

与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe这一算法的高效支持。

MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。

MT-DualPipe开源地址:

https://github.com/MooreThreads/MT-DualPipe

Torch-MUSA开源地址:

https://github.com/MooreThreads/Torch_MUSA

3FS:

Fire-Flyer文件系统(3FS)是一种利用现代SSD和RDMA网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致。

摩尔线程在一天内完成了高性能分布式文件系统3FS的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成,为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

3FS CSI Driver地址:

https://github.com/MooreThreads/csi-driver-3fs

国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

主题测试文章,只做测试使用。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/article/35824.html

(0)
火星财经的头像火星财经
上一篇 2025年3月2日 下午3:00
下一篇 2025年3月2日 下午3:00

相关推荐

  • DeepSeek大胆披露:理论利润率高达545%!

    3月1日消息,今日,DeepSeek正式在知乎平台开设了其官方账号,并发布了一篇名为《DeepSeek-V3/R1推理系统概览》的技术文章。 在这篇文章中,DeepSeek首次向公众详细公布了其模型推理系统的优化细节,同时披露了成本利润率的关键信息。 据文章介绍,DeepSeek在推算成本时,假定GPU租赁成本为2美金/小时,据此计算出总成本为87,072美…

    2025年3月1日
    4100
  • SB OpenAI Japan正式成立!

    2月3日消息,今日,软银集团宣布与OpenAI建立合作伙伴关系,共同开发和销售名为Cristal intelligence的高级企业人工智能。 据悉,软银将每年斥资30亿美元在其集团公司中部署OpenAI的解决方案。 此外,软银和OpenAI还宣布成立一家新的合资企业,名为SB OpenAI Japan,将专门向日本的大型企业推广OpenAI的企业技术,双方…

    2025年2月3日
    3400
  • 2024年我国软件业利润总额达16953亿元 同比增长8.7%

    1月27日消息,根据工信部数据,2024年我国软件和信息技术服务业运行态势良好,软件业务收入平稳增长,2024年,我国软件业务收入137276亿元,同比增长10.0%;利润总额为16953亿元,同比增长8.7%;软件业务出口为569.5亿美元,增长3.5%。 分领域看,软件产品收入稳健增长,达到30417亿元,增长6.6%,占全行业收入的22.2%。 其中,…

    2025年1月27日
    3900
  • 从春晚配角到主角他熬了20年 网友:瘦了 也长高了

    2月2日消息,今日,#从春晚配角到主角他熬了20年#话题登上热搜。2025年春晚现场,扭秧歌的机器人引发网友关注。它从配角到主角熬了整整20年,早在2005年就在春晚现场出现过。 有网友笑称,孩子瘦了,也长高了。还有网友表示,玩笑归玩笑,看到它们那么精准的转手绢、走队形,我还是格外自豪,越来越对科技强国感到具象化。 据报道,蛇年央视春晚《秧BOT》节目中,一…

    2025年2月2日
    5000
  • 全球货币支付市场份额:美元仍强势第一 人民币超日元排第四

    4月17日消息,美元依然是全球流通性最好的货币,欧元紧随其后。 根据环球银行金融电信协会(Swift)的数据,美元3月在全球总体支付中的份额保持稳定,其支付比例上升13个基点,至49.08%。这较1月创下的纪录高位50.17%低了整整一个百分点。 欧元继续在全球支付中占据第二位,但其接近22%的份额仍不到美元的一半。 值得一提的是,人民币上个月的份额下降了2…

    2025年4月17日
    1300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信