国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

3月2日消息,日前摩尔线程宣布,随着DeepSeek开源周收官,摩尔线程在短时间内,成功实现对DeepSeek各个开源项目的全面支持,涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统(3FS)。

摩尔线程表示,这一成果充分验证了MUSA架构和全功能GPU在生态兼容与快速适配方面的强大优势。

以下是摩尔线程支持DeepSeek开源周全家桶代码合集:

FlashMLA:

FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。

摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持了FlashMLA。

借助MUTLASS 0.2.0,摩尔线程发布开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。

MT-FlashMLA开源地址:

https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3地址:

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

DeepEP:

DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。

它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,第一时间适配了DeepEP。

MT-DeepEP开源地址:

https://github.com/MooreThreads/MT-DeepEP

DeepGEMM:

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为V3/R1的训练与推理提供强大动力。

这个开源仓库基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发,摩尔线程基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。

MUTLASS FP8 GEMM地址:

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

DualPipe:

DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了流水线气泡(设备空闲等待)。

与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe这一算法的高效支持。

MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。

MT-DualPipe开源地址:

https://github.com/MooreThreads/MT-DualPipe

Torch-MUSA开源地址:

https://github.com/MooreThreads/Torch_MUSA

3FS:

Fire-Flyer文件系统(3FS)是一种利用现代SSD和RDMA网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致。

摩尔线程在一天内完成了高性能分布式文件系统3FS的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成,为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

3FS CSI Driver地址:

https://github.com/MooreThreads/csi-driver-3fs

国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

主题测试文章,只做测试使用。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/article/35824.html

(0)
火星财经的头像火星财经
上一篇 2025年3月2日 下午3:00
下一篇 2025年3月2日 下午3:00

相关推荐

  • 美的被曝强制18点20下班:一到下班时间HR就催促各部门抓紧下班

    3月10日消息,据媒体报道,美的从这周开始提倡各部门领导严谨控制加班,规定18:20不允许有人还在公司加班,同时禁止员工就餐后再返回工位继续加班的现象。到目前为止,一到下班时间,HR就开始挨着部门催促大家抓紧时间下班了。 此前在1月份,美的集团董事长方洪波发布一份《关于简化工作方式的要求》的文件,旨在减少职场中的表演式工作,提升员工的工作效率。这份文件强调,…

    2025年3月10日
    200
  • 特斯拉FSD调研报告:算力是国产车企之和3倍 算法领先1.5年

    3月7日消息,车百智库调研报告《特斯拉FSD发展情况及影响》深入分析了FSD的基本情况、FSD与其他智驾方案的比较。 据其介绍,FSD已进入商用落地阶段,2024年3月V12版本正式在北美范围内全量推送,特斯拉端到端自动驾驶率先进入商用阶段。目前,特斯拉在算力、数据、工具、算法层面形成阶段性领先。 算力方面,特斯拉算力规模超过国内厂商一个数量级。2023年一…

    2025年3月7日
    900
  • DeepSeek用莫言风格写《蔚来换电记》 还真是那个味儿

    1月28日消息,近日,DeepSeek在全网范围内引发了热烈的关注与讨论,其火爆程度堪称现象级。 就连蔚来汽车的创始人李斌也对其进行了亲自体验,在体验过程中,DeepSeek展现出了令人惊叹的创作能力。它以作家莫言的风格,撰写了一篇关于蔚来换电的文章——《换电记》。 这篇成品一经呈现,便让李斌赞不绝口,他直呼太牛了。 不同于大多数大模…

    2025年1月28日
    2700
  • 小米SU7交付再创新高!累计已超18万台

    3月1日消息,小米汽车在2025年2月再次传来交付喜讯。 据小米汽车官方最新数据显示,小米SU7在2月份的交付量再次突破20000台大关,至此已连续5个月保持每月交付量超过2万台的优异成绩。 截至2025年2月底,小米SU7的累计交付量已经成功突破18万台。 此前,在2月27日举行的小米新品发布会上,小米集团董事长雷军亲自登台,首次公开了SU7的订单和交付具…

    2025年3月1日
    1400
  • 稳了!第二代哈弗枭龙Max内饰公布:内外颜值巨幅提升

    2月25日消息,哈弗SUV官方最新展示了第二代枭龙Max的内饰,相较于第一代进步非常大,如果能够在今年如此内卷的背景下制定一个足够惊喜的价格,那么这款车无疑稳了! 来看内饰,枭龙Max启用了全新的设计语言,内饰采用了双拼色设计,目之所及都能看到大面积软包材质,提升了档次感,同时整体非常清爽,布局很是工整,很容易博得好感。 中控台上配备全液晶仪表盘和大尺寸悬浮…

    2025年2月25日
    2700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信