GPT-4o亮相：OpenAI发布了钢铁侠的贾维斯

访客 2024-05-19 16:13:21 1519 抢沙发

默认

Hello各位好，我是Hugo。

今天凌晨，OpenAI开了一个简短的发布会，没有豪华的剧场，没有提前制作视频和动画，一如既往朴实无华地现场演示，推出了首款端到端的多模态大模型——GPT-4o。

米拉·穆拉蒂，OpenAI现任CTO

其中这个o代表拉丁文的omni，是“全能”的意思。

这会给AI的发展带来哪些变化呢？今天我就给大家简单分析一波。

钢铁侠的贾维斯，我的GPT-4o

一言以蔽之，这个新模型，能同时理解文字、声音和画面信息，并且反应速度非常的快。

有的朋友可能会有疑问，以前ChatGPT4也可以输入图片啊，甚至手机App版本也能输入语音啊，这不等于没更新吗？

有区别。

就拿语音交流来说。以前需要经过三个步骤，第一步是把人类的语音，通过Whisper语音识别模型转成文字；接着，转好的文字再传给GPT模型；最后得到的回答再通过一个简单的模型转成语音。

也就是说，经过了：语音转文字-文字理解输出-文字转语音3个模型，最直接的后果就是，在语音转文字这一步，你说话的语气，你独特的气泡音等等特征信息都被抹去了，到最后输出的时候，AI也很难表现出回答中的感情。

图片由AI生成

比如你在打球，这时候接到AI来电问你在干嘛，你气喘吁吁地说：“呼哧呼哧，我在加班，呼哧呼哧。”

这时候以前AI会说：“好的，早点回来吃饭。”

不像人，像冷冰冰的机器。

而GPT-4o可能会破口大骂：“OOXXXOOOXXXX！！！！！！”

因为GPT-4o是用一个模型来处理以上所有的输入，可以通过你的语气，观察你的表情，甚至聆听你的喘息惊叫，来理解你当下的心情，你想要什么；

可以同时跟多个人甚至动物交流，完全能分得清谁是谁；

可以实时看着你的屏幕，跟你一起写文章，写代码，解题，一步步给出具体的指导。

并且抛弃了在不同模型中传递信息的步骤之后，GPT-4o的反应变得非常快，语音交流的响应时间从之前的2到3秒提升到了0.2-0.3秒，这TM已经比我快了。

讲到这里，相信大家已经理解了这个新模型的强大之处。

交互更加便捷，更像一个真人秘书了，说得更加具体一点，更像钢铁侠里面那个贾维斯了。

我经常用AI总结会议纪要，操作步骤是先用手机录下来，然后用软件转成文字，再丢给ChatGPT或者Kimi总结，虽然说不上有多麻烦吧，但这个感觉就是牛马在操作工具搬砖。

有了这个GPT-4o之后，我就开着他让他自己听，自己看就行，就仿佛会议室里面多了一个看不见的人。

以前想用ChatGPT这种AI大模型，你总得会上个网、会打个字吧。

有了这个GPT-4o之后，小孩不会走路先会用GPT了，甚至连猫猫狗狗都能用了。

可以说，从此AI有了眼睛和耳朵，跟人类达成了无缝的交流。

就如同当年乔布斯在初代iPhone引入多点触控屏幕，促进了移动互联网时代的到来一样。

更加直观、傻瓜的交互，必定会带来AI应用更大面积的普及，AI走入千家万户的前景可能已经不再遥远。

然而在我看来，这还不是OpenAI这波更新带来的最大的变化。

是交互，更是新智能的起点

也有一些朋友看了这场发布会，感到很失望，因为GPT-5没有来。

从GPT3.5到GPT4用了不到一年时间，而GPT4发布到现在已经1年零2个月了，GPT-5却迟迟不见出场。

这次更新的这个模型再好，也只是交互上的进步（？），模型的智能水平它没有提升啊。

暂时可以这么说，但如果把眼光稍微放长到一两年以后，可能这话就会有很大的疑问。

我认为，GPT5的难产，一个最重要的原因，就是地球上可以喂给AI的文字资料已经接近干涸了，AI再想取得长足的进步，发现已经没有"书"可以读了。

举一个简单的例子。

比方说，我们找两个女明星的正脸照片，杨幂（整容前）和韩红，可以直观的看到，杨幂的脸比较方，韩红的脸比较圆；杨幂的脸比较长，而韩红的脸比较短。

我们只选取这两个人正面的照片，然后把这些照片中的人，按脸圆的程度，和脸长的程度，数据化（0到1），就得到了一个二维平面上的点，左上方这些蓝色的点，代表杨幂，而右下角这些红色的点，代表韩红。

那么很显然，我们可以画一条线，这条线的上面是杨幂，下面是韩红。

如果发现没画好，就调整一下，反正终归是能画出这么一条线，把代表杨幂的点，和代表韩红的点，给区分出来。

这条线可以用ax+by+c=0表示。

这根经过调整的线，就是一个简单的AI，功能在于区分杨幂和韩红，而这里的a和b，就是这个AI的参数。

我们通过选定a和b这两个参数（训练的过程），神奇地记住了关于杨幂和韩红的一些脸部特征，以后任何一张她俩的正面照片，我们都能分辨出来，非常的自动化，非常的牛逼。

ChatGPT也是同样的道理。

ChatGPT做的工作是根据前文，不停地往文章的末尾填单词（token），前文就是不同的情况（照片），而可以选择的单词，就是输出的结果（杨幂或者韩红），只不过人类的语言非常的复杂，上文可以有无数种情况，而接下来要填的单词，以英文为例，有5万个可供选择。为了记住这些复杂的特征，ChatGPT 3.5用了1750亿个参数，而ChatGPT4据说是用了1.2万亿个参数。

神经网络的基本假设就是，不管我们面临的情况是多么的复杂，不管场景是说话、是开车、还是做视频、还是机器人走路，只要参数够多，它总能把其中的特征提取出来并且记住，然后用来对未来的情况进行分类预测，这就是所谓的，完成了神经网络的训练。

神经网络的基本结构

但前提是，我们有足够丰富的已知的情况（类似标注好杨幂或者韩红的图片），可以喂给我们的神经网络。

很遗憾的是，在文字领域，这样的优质资料，已经接近枯竭。

根据AI研究机构Epoch的预测，全球互联网上的文字资料将在2026年被AI训练用尽。而更明显的迹象来自于各大AI企业的成绩。

OpenAI在去年3月份发布了GPT-4，当时的水平可谓遥遥领先。而在整整一年零两个月之后的今天，GPT-4的智能水平并没有显著的提升，而包括Anthropic的Claude3，月之暗面的Kimi和阿里的通义千问在内的一些大模型，都已经赶上甚至超过了GPT-4，逼得OpenAI不得不多次下调收费标准和使用门槛来试图留住用户。

怎么着？OpenAI大善人，为了给竞争对手留条生路，决定抬一手？

更大的可能是，它遇到了瓶颈。

它最初能取得领先并非掌握了什么秘密的高级模型架构，而是因为它走在了前面，更有钱，投入了更多的英伟达H100，更高的算力，抢先消化了人类几十年来储存在互联网的知识，而它的竞争对手们或是因为没它有钱，或是因为被制裁限制，没有它那么大的算力，所以消化得就慢，就落后了。

老黄亲手将第一台DGX-1服务器赠予OpenAI

但慢不等于闲着，慢慢地月之暗面们也把那些知识消化得差不多了，存在了自家神经网络的参数中，自然就追上来了。

由于中国的AI团队跟OpenAI差的主要就是算力，于是我们就发现这波追上来的公司大多是中国公司。

那么很显然，随着ChatGPT-4o的出现，OpenAI抢先把能用于训练的资料，扩展到了音频图片特别是视频领域，再度取得了先手优势。

我仿佛听见山姆·奥特曼摸着AI的头说，你看，人类交流的维度是多么的丰富，你还有很长的路可以走！

前景光明，优势在我

那么，音视频资料的加入，会对AI的智能带来怎样的提升呢？

在本次发布的技术日志中，OpenAI谦虚地表示，他也不知道。。。

对此我只能说：老基佬坏得很，我信你个鬼！（开玩笑，无恶意）

以前的GPT相当于是一个憋在家里看了很多书，但是从来不出门也不跟人交流的究极宅男。基于GPT-4o的框架训练的下一个模型，是真正的读万卷书，行万里路。

用脚趾头想一想，这两个人的能力能一样吗？

就先不说在训练素材总量上几何倍数的增加了，我们都知道，有很多东西，是必须图文并茂或者边听边看，才能理解的。

就好比我说，看米开罗基罗的画，就像是误入了健身教练的年会。

这啥意思？

结合作品就一目了然了。

《最后的审判》——米开朗基罗

今天我在看一篇有关光子芯片加工工艺的论文，《Lithium tantalate photonic integrated circuits for volume manufacturing》（用于大规模生产的钽酸锂光子集成电路），作者是来自中科院上海微系统所和瑞士洛桑联邦理工学院的一个合作团队，发表在《Nature》，内容可以说是光子芯片加工领域划时代的发明，我觉得很有必要品读一番。

以前用大语言模型辅助看理工科论文，最大的问题在于它会忽略里面的插图。然而理工科论文的核心数据和操作步骤，一般都是用插图体现的，忽略插图那还看个毛？

正好今天GPT-4o上线了，相对于GPT-4版本，会有什么区别呢？

我分别问了GPT-4o和GPT-4：

图长这样：

GPT-4给我的答案是：

在图1a中展示的几片圆盘实际上是在描述钽酸锂晶圆（LTOI）的制备流程，特别是晶圆键合工艺的各个步骤。具体来说，这个流程图展示了以下几个关键步骤：

氢离子注入：这是晶圆分裂技术中的第一步，使用氢离子对晶圆进行注入。

键合：将处理过的晶圆与另一块晶圆进行精确对准并键合。

分裂：通过注入的氢离子层使晶圆在预定区域内分裂。

化学机械抛光（CMP）：对分裂后的晶圆表面进行抛光，以确保表面的平整和光洁。

这些圆盘代表的是晶圆在各个阶段的视图，用于说明从晶圆制备到制成钽酸锂薄膜的整个工艺流程。

是不是看起来还挺清楚的？