提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

4月10日消息,今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集——Multi-SWE-bench,可用于评估和提升大模型自动修 Bug能力。

在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript),是真正面向全栈工程的评测基准。

Multi-SWE-bench包含1632个实例,均来自GitHub issue,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

豆包大模型团队希望,Multi-SWE-bench能作为大模型在多种主流编程语言与真实代码环境中的系统性评测基准,推动自动编程能力向更实用、更工程化的方向发展。

团队表示,相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程方向上的实际能力边界。

提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/47311.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年4月10日 下午3:16
下一篇 2025年4月10日 下午3:16

相关推荐

  • 何小鹏:全新小鹏P7预售订单已创历史车型新高

    8月20日消息,全新小鹏P7已于8月6日开启预订,虽然并未公布价格,只给出了99元意向金可抵扣3000元购车款的福利政策,但全新小鹏P7已有成为小鹏最新爆款车的趋势。 发布当晚,小鹏汽车宣布,预售6分37秒,全新小鹏P7小订突破10000台。 今日,小鹏汽车董事长何小鹏发文称,全新小鹏P7自亮相以后,广泛受到大家认可,都觉得这个车很帅气时尚,截至目前,预售订…

    2025年8月20日
    11200
  • 加拿大航空超1万名空乘罢工 加航宣布:全面停飞!

    8月17日消息,据媒体报道,由于加拿大航空公司与代表空乘人员的工会未能按期达成协议,超过1万名加航空乘人员在8月16日开始举行罢工。 根据工会说法,此次罢工将持续72小时。 加拿大航空公司表示,空乘人员罢工后,已暂停加拿大航空公司及其廉价航空子公司加拿大胭脂航空公司的所有航班。 不过,加航旗下的另两家区域运营商仍继续运营。 加航表示,罢工和停飞期间,预计每天…

    2025年8月17日
    10100
  • 6.88万起售 全新奇瑞QQ3首发:精致小车挑战吉利星愿

    8月29日消息,在今日开幕的成都车展上,奇瑞带来全新的A0级纯电轿车QQ3,该车已经开卖,价格为6.88-9.79万元,将竞争吉利星愿、比亚迪海豚等。 全新QQ3采用全新家族设计语言,整体造型流线圆润,致敬当年QQ经典的风格设计,新车前大灯组内部配备透镜大灯,外部是上下双条的日行灯,并围成一个椭圆形,煞是可爱。 车身侧面造型修长,采用短前后悬的设计,轴距超过…

    2025年8月29日
    10100
  • 为何被英伟达连续两年列为竞争对手!黄仁勋:华为在AI芯片领域有强大竞争力

    3月1日消息,在当地时间周三提交的年度文件中,英伟达将华为列为其当前竞争对手之一,这是该公司连续第二年将华为列入竞争对手名单。 英伟达在五个产品类别的四个类别中,将华为列为竞争对手之一,这四个产品类别分别是芯片、云服务、计算处理和网络产品。 对于这样的做法,黄仁勋直言,英伟达是惧怕华为这样的竞争对手的。 华为、英特尔以及越来越多的半导体初创公司对英伟达在人工…

    2025年3月1日
    18300
  • Grok语音模式正式上线 为配合更新马斯克更改X昵称为“groklon rust”

    5月5日消息,Grok今日宣布,其语音模式已在Grok应用程序中全面推出,覆盖所有iOS用户及Android平台的SuperGrok订阅者。 与此同时,马斯克将X平台昵称改为groklon rust,并更换头像,疑似配合新功能造势。 Grok的语音模式允许用户通过自然语言与人工智能进行对话,从而实现更直观、更高效的信息获取和交互。 该模式提供两种声音(Ara…

    2025年5月5日
    11500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信