AI高考数学都能考100多分了？

大模型又双叒叕进化了。

OpenAI凌晨发布新一代大模型，据说在推理能力上已经可以比肩人类。并且这次没有像Sora一样的画饼，发布即可用。

那就让我们看看这个新模型到底是怎么个事！

草莓计划

其实这次OpenAI的发布早有"预谋"，在萨姆奥特曼的twitter上，一直都在暗示，即将有一款名为"草莓"的AI项目与大家见面！

这草莓是啥呢？就是之前一直传言中可以"媲美"人类，达到AGI（通用人工智能）的大模型。草莓的使命，就是让AI具有推理，规划，甚至是自我学习的能力，从而帮助人类在医疗，科研，教育等有着更快更大的突破。

今天凌晨，我们终于看到了"草莓"，只不过它的名字不是GPT5，而是o1。

根据官方的介绍，o1在推理相关的问题上，比GPT4o有着大幅度的提升。比如针对美国最聪明高中生的数学测试中，以前GPT4o平均只能在15道题答对1.8道，而o1的正确数量飙升到了12.5，如果微调下，o1可以超过美国高中生数学奥林匹克的分数线。

同样地，在编码比赛中，分数也从以前的11分干到了现在的89分，在博士级别的问答中，它也可以超过人类专家。

在信息奥林匹克上，经过微调的o1，分数整整提高到了1000分。这是什么概念呢？在人类中，只有7%的参赛者比AI强，剩下的93%都被AI击败了！

看完这些，我突然有种第一次见到Sora感觉，这视频真是AI生成的？人类智商最后的防线，就这么被AI攻破了？是不是OpenAI看AI要崩了，又一次画的大饼？

答案是什么，只有测过，才清楚。这次o1并没有像Sora一般不可"亵玩”,发布后，就全量推送给订阅用户，也就是说，任何人交上20美元，就可以立刻体验到这个划时代的大模型。

测试完，我有点慌了

那就废话少说，直接开测，学渣还是Jumping，我们一测便知！

我们分别用2024年新课标1卷的高考数学题和阿里巴巴全球数学竞赛预选赛的题目来测o1的推理能力。不过要说明的是，目前推送的是o1预览版，它的推理能力和正式版还有些许差距，所以将来看到的o1会比现在更强。

目前的o1还不能看图，所以这次我们把数学公式转换成LaTex格式，交给AI解答，并且今年新课标1卷的试题中，有两道是需要看图的，刨除这两道题的分数，总分在129分。

在题目输入对话框后，可以看到o1比普通大模型多了一个思考的过程。比如上图这道高考数学的多选题，它会先分析题目，然后再找需要用到知识。以这道题来讲，需要用的就是正态分布的知识，然后再去计算概率。

在这里也简单放下这道题o1的思考过程，大家可以看下，它整体的思路和人类思考确实非常像！

给AI的卷子判完，我直接慌了！91分！如果转换到150分，那就是105分呀，这已经超过我当年的高考分数了。

阿里巴巴数学竞赛的题比较特殊，其中大部分都是证明题，没有固定答案，所以我们就测试了6道具有准确答案的题，像下面这种：

答题的整个过程，和人类非常相似，概率论与数理统计忘光的我，基本上也能看明白个大概。

最终6个问题，o1回答对了3个，正确率在50%，虽然没有超过姜萍的93分，但作为AI来讲，也非常不错了，毕竟是国际数学比赛。

测完下来，感觉和AI相比，我自己像个弱智！当年我高考数学90多分，结果AI不仅在10分钟内做完题，还考了100多分。我连题目都看不懂的数学竞赛题，它能答对一半，虽然不如姜萍，但也能秒杀大部分人了。

说好的AI推理能力不如5岁小孩呢？OpenAI怎么突然就让AI推理能力，噌噌的，超过我这个360个月的婴儿了呢？

思维链，下个大模型的突破点

这其中的秘密就在于思维链（Chain of Thought），也就是上面提到过的把一个复杂问题，拆成多个小问题，依次解决的方法。

之前思维链都是作为提示词技巧来使用。想要AI帮你解决复杂问题，就把这个问题拆解成小问题，然后一个一个的输入给AI。

这次，OpenAI直接把拆解的过程交给AI，人类得到了彻底的解放！实测的结果大家也看到了，AI的逻辑推理能力确实得到了大跨步的前进！

那么OpenAI又是如何实现让AI自我完成思维链的呢？很可惜，目前的OpenAI早就Close了，因此这次并没有公布这些技术细节，但从传闻来看，大概是用到了强化学习。

也就是给AI设置一个规则，这一步逻辑正确+1分，错误-1分，分数越高越好，最终就有了今天的o1。当然其中有很多工程细节，这些都成为了OpenAI的护城河。

接下来可以肯定的是，思维链将成为其他家大模型的突破方向，到时候谁家模型分解问题分解的好，分解的正确将成为能否领先的关键。

除了数学，有了推理能力的AI在各个地方都有着更好应用。比如OpenAI官方就展示用o1，在不到10分钟内做出一个小游戏，网友在实际测试中，甚至做出了3D的贪吃蛇。

更让我意外的是，OpenAI还展示了o1在量子物理，基因学，经济学以及认知学带来的帮助，好家伙，这下AI都可以覆盖到这么前沿的领域了？

不过每一次AI突破，都有不小的"副作用"，ChatGPT带来论文造假，Midjourney和Sora带来伪造新闻恐慌，这次o1的"副作用"更大。

之前GPT4安全测试，生物威胁等级为低，而在o1中，生物威胁不仅升级到了化学，生物，核子，放射威胁，等级也提升到中。

也就是说，"天网"离我们又进了。AI越强，它造成的破坏也越大，如何控制它，将成为和思维链一样重要的事情，就像我们都希望核子发电，而不希望它爆炸。

从今天开始，各大AI厂商就要考虑这个问题了，不过对于我，我更关心一个问题，就是以后我们还需要考试吗，实在要考的话，能不能让AI替我答一下，毕竟它比我分高！

平台声明：该文观点仅代表作者本人，火星财经仅提供信息存储空间服务。发布者：火星财经，转转请注明出处：https://www.sengcheng.com/shichang/12376.html

AI高考数学都能考100多分了？

发表回复

联系我们

400-800-8888

AI高考数学都能考100多分了？

相关推荐

掼蛋火了，姚记没有

腾讯透露了接下来的一个大动作，张小龙亲自主导

外交部给德国立规矩 一天后德军憋出一句话 台海航行自由引争议

英特尔面临艰难抉择：从辉煌跌落后的出路何在？

一位美国犹太裔记者身披黑白格围巾表达对巴勒斯坦的支持

发表回复

联系我们

400-800-8888

外交部给德国立规矩一天后德军憋出一句话台海航行自由引争议