AI高考数学都能考100多分了?

大模型又双叒叕进化了。

OpenAI凌晨发布新一代大模型,据说在推理能力上已经可以比肩人类。并且这次没有像Sora一样的画饼,发布即可用。

那就让我们看看这个新模型到底是怎么个事

草莓计划

其实这次OpenAI的发布早有"预谋",在萨姆奥特曼的twitter上,一直都在暗示,即将有一款名为"草莓"的AI项目与大家见面!

这草莓是啥呢?就是之前一直传言中可以"媲美"人类,达到AGI(通用人工智能)的大模型。草莓的使命,就是让AI具有推理,规划,甚至是自我学习的能力,从而帮助人类在医疗,科研,教育等有着更快更大的突破。

今天凌晨,我们终于看到了"草莓",只不过它的名字不是GPT5,而是o1

根据官方的介绍,o1在推理相关的问题上,比GPT4o有着大幅度的提升。比如针对美国最聪明高中生的数学测试中,以前GPT4o平均只能在15道题答对1.8道,而o1的正确数量飙升到了12.5,如果微调下,o1可以超过美国高中生数学奥林匹克的分数线。

同样地,在编码比赛中,分数也从以前的11分干到了现在的89分,在博士级别的问答中,它也可以超过人类专家

在信息奥林匹克上,经过微调的o1,分数整整提高到了1000分。这是什么概念呢?在人类中,只有7%的参赛者比AI强,剩下的93%都被AI击败了!

看完这些,我突然有种第一次见到Sora感觉,这视频真是AI生成的?人类智商最后的防线,就这么被AI攻破了?是不是OpenAI看AI要崩了,又一次画的大饼

答案是什么,只有测过,才清楚。这次o1并没有像Sora一般不可"亵玩”,发布后,就全量推送给订阅用户,也就是说,任何人交上20美元,就可以立刻体验到这个划时代的大模型。

测试完,我有点慌了

那就废话少说,直接开测,学渣还是Jumping,我们一测便知!

我们分别用2024年新课标1卷的高考数学题和阿里巴巴全球数学竞赛预选赛的题目来测o1的推理能力。不过要说明的是,目前推送的是o1预览版,它的推理能力和正式版还有些许差距,所以将来看到的o1会比现在更强。

目前的o1还不能看图,所以这次我们把数学公式转换成LaTex格式,交给AI解答,并且今年新课标1卷的试题中,有两道是需要看图的,刨除这两道题的分数,总分在129分。

在题目输入对话框后,可以看到o1比普通大模型多了一个思考的过程。比如上图这道高考数学的多选题,它会先分析题目,然后再找需要用到知识。以这道题来讲,需要用的就是正态分布的知识,然后再去计算概率。

在这里也简单放下这道题o1的思考过程,大家可以看下,它整体的思路和人类思考确实非常像

给AI的卷子判完,我直接慌了!91分!如果转换到150分,那就是105分呀,这已经超过我当年的高考分数了。

阿里巴巴数学竞赛的题比较特殊,其中大部分都是证明题,没有固定答案,所以我们就测试了6道具有准确答案的题,像下面这种:

答题的整个过程,和人类非常相似,概率论与数理统计忘光的我,基本上也能看明白个大概。

最终6个问题,o1回答对了3个,正确率在50%,虽然没有超过姜萍的93分,但作为AI来讲,也非常不错了,毕竟是国际数学比赛。

测完下来,感觉和AI相比,我自己像个弱智!当年我高考数学90多分,结果AI不仅在10分钟内做完题,还考了100多分。我连题目都看不懂的数学竞赛题,它能答对一半,虽然不如姜萍,但也能秒杀大部分人了。

说好的AI推理能力不如5岁小孩呢?OpenAI怎么突然就让AI推理能力,噌噌的,超过我这个360个月的婴儿了呢?

思维链,下个大模型的突破点

这其中的秘密就在于思维链(Chain of Thought),也就是上面提到过的把一个复杂问题,拆成多个小问题,依次解决的方法。

之前思维链都是作为提示词技巧来使用。想要AI帮你解决复杂问题,就把这个问题拆解成小问题,然后一个一个的输入给AI。

这次,OpenAI直接把拆解的过程交给AI,人类得到了彻底的解放!实测的结果大家也看到了,AI的逻辑推理能力确实得到了大跨步的前进!

那么OpenAI又是如何实现让AI自我完成思维链的呢?很可惜,目前的OpenAI早就Close了,因此这次并没有公布这些技术细节,但从传闻来看,大概是用到了强化学习

也就是给AI设置一个规则,这一步逻辑正确+1分,错误-1分,分数越高越好,最终就有了今天的o1。当然其中有很多工程细节,这些都成为了OpenAI的护城河。

接下来可以肯定的是,思维链将成为其他家大模型的突破方向,到时候谁家模型分解问题分解的好,分解的正确将成为能否领先的关键。

除了数学,有了推理能力的AI在各个地方都有着更好应用。比如OpenAI官方就展示用o1,在不到10分钟内做出一个小游戏,网友在实际测试中,甚至做出了3D的贪吃蛇。

更让我意外的是,OpenAI还展示了o1在量子物理,基因学,经济学以及认知学带来的帮助,好家伙,这下AI都可以覆盖到这么前沿的领域了?

不过每一次AI突破,都有不小的"副作用",ChatGPT带来论文造假,Midjourney和Sora带来伪造新闻恐慌,这次o1的"副作用"更大。

之前GPT4安全测试,生物威胁等级为低,而在o1中,生物威胁不仅升级到了化学,生物,核子,放射威胁,等级也提升到中。

也就是说,"天网"离我们又进了。AI越强,它造成的破坏也越大,如何控制它,将成为和思维链一样重要的事情,就像我们都希望核子发电,而不希望它爆炸。

从今天开始,各大AI厂商就要考虑这个问题了,不过对于我,我更关心一个问题,就是以后我们还需要考试吗,实在要考的话,能不能让AI替我答一下,毕竟它比我分高

平台声明:该文观点仅代表作者本人,火星财经仅提供信息存储空间服务。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/shichang/12376.html

(0)
火星财经的头像火星财经
上一篇 2024年9月14日 上午10:26
下一篇 2024年9月14日 下午12:14

相关推荐

  • 掼蛋火了,姚记没有

    斑马消费 范建 如果到现在还要问掼蛋是什么?那你就太out了。 这种上世纪70年代起源于江苏淮安的扑克玩法,好像一夜之间突然普及到全国,变成了一项“全民运动”。甚至,因为过于火,而在近期引发了一系列争议。 饭前、饭后都得来一场掼蛋,四人围坐,一次就得消耗两副扑克牌,比普通扑克牌更贵的掼蛋专用扑克,也大量推向市场。 无论怎么看,掼蛋对扑克行业都是重大利好。 但…

    2024年8月25日
    8000
  • 腾讯透露了接下来的一个大动作,张小龙亲自主导

    导语:从最早打败网易邮箱,到后来打败微博,打败支付宝,打败今日头条,再到今天紧逼抖音,一直极为低调,从不基于竞争,而是基于用户价值出发的张小龙,却不动声色地打败了几乎所有的最强对手,堪称中国互联网行业真正的“战神”。 砺石 | 作者 砺石商业评论 | 出品 1 近日,腾讯公司发布了 2024 年第二季度的财务报告。其中,该报告不乏惊喜。 例如,腾讯在该季度总…

    2024年8月22日
    6900
  • 外交部给德国立规矩 一天后德军憋出一句话 台海航行自由引争议

    德国军舰计划穿越台海的消息引发了广泛关注。这一行动背后,德国意图何在,中国又将如何应对,成为热议的话题。德国派遣“巴登-符滕堡号”护卫舰与“法兰克福号”补给舰,预计九月中旬启程,其行程显然不仅仅是一场远洋旅行。尽管距离遥远,德国此举显然有着深层次的考虑,绝非简单的观光或购物所能解释。 近期,北约正积极推进其“亚太化”战略,试图在亚洲扩大影响力,日本则扮演着积…

    2024年9月12日
    3100
  • 英特尔面临艰难抉择:从辉煌跌落后的出路何在?

    本周,对于现代科技行业中的一家重要公司来说,一个关键的转折点即将到来。从周二开始,英特尔公司的董事会召开为期三天的会议,讨论在8月1日发布令人失望的财报后的下一步行动。财报显示,英特尔的增长不如预期,其未来的预测远低于华尔街的估计,并宣布计划裁员15,000人。这份糟糕的成绩单导致股价大幅下挫,并彻底打破了帕特·基辛格自2021年接任首席执行官以来推行的转型…

    2024年9月12日
    1600
  • 一位美国犹太裔记者身披黑白格围巾表达对巴勒斯坦的支持

    一位美国犹太裔记者身披黑白格围巾表达对巴勒斯坦的支持。和左翼学者芬克斯坦一样,他也是纳粹屠犹幸存者的儿子。他表示,never again是指这种惨剧应该永不发生在任何人身上,而不只针对犹太人。 反对锡安主义的犹太人有一个共同特点,就是他们不觉得犹太身份有特殊性。这一点十分关键。即便是信教的反锡安主义犹太人,也会明确表示“选民”指的是遵守律法、服饰神明的人,反…

    2024年9月6日
    3700

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:sengchen@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信