生成式AI的崛起22: OpenAI 的春季更新，免费推出 GPT-4o

– by Solen Feyissa in Unsplash

今天是ChatGPT诞生第 532 天

过去的一个月，是 AI 届“相对”安静的一个月 🙏。与其说安静，是指几家 AI 大鳄没有太多大动作，所以我也有时间尝试一下国内的一些 AI 产品，特别是最近蹿红的月之暗面出品的 Kimi Chat。这款产品在处理PDF、DOCX等格式的文档查询方面表现出色，尤其在中文领域的表现令人瞩目 👀。我的上一篇关于推理小说的文章，就得益于Kimi的大力协助。。

随着5月的到来，OpenAI 终于打破了沉寂 🎉。一天前，OpenAI的CTO Mira Murati在不到半小时的时间内，以一场紧凑而高效的春季发布会，向世界展示了AI领域的最新突破——GPT-4o 💥。这个全新的模型，以其多模态统一的特性，被命名为“Omnimodel”，意在提供一种全新的、面向未来的交互体验 🤖。

语音交互的革命

在发布会上，Mira和她的两位工程师演示了GPT-4o的多个功能 💬。整个发布会基本上是基于工程师和GPT的语音交互的，而新的GPT-4o模型，终于可以像人一样随时可以打断（听起来好像对它不太尊重），而且在整个交流过程中基本上实时，如同一位真人在旁 👥。更重要的是，GPT-4o具备很好的情绪识别能力，同时也能通过调整自己的语气，哪怕是戏剧腔（如果你需要的话）、歌唱来输出内容，所以以后人们再也不用担心没有倾诉对象了 💕。GPT-4o也许真的可以成为一个最了解你、最耐心的“好闺蜜” 👯。

视觉识别的新高度

在视觉识别功能的演示上，工程师在纸上写了 3X+1=4 这么一个简单的等式，并要求 GPT-4o 在不告知答案的情况下，扮演一位耐心的老师一步步教授解题思路，最终 GPT-4o 的输出非常流畅 📝。这对各位小学初中的家长来说也许是个巨大的福音 🎉。父母真的再也不用担心孩子的学习了，家教费也可以省一大笔 💸。

在过程中还让人比较惊喜的是 GPT-4o 的即时反应，因为当工程师在纸上写了 I ♥️ ChatGPT的时候，AI 的发出了羞涩的笑声 😊。如此逼真的反应，通过图灵测试应该不是什么问题吧 🤔。

另外在这个环节对我来说最感兴趣的，还是他们演示 GPT-4o Desktop 版本。工程师的一边开着代码编辑器，一边开着 GPT-4o Desktop, 通过GPT来解释代码，这个应用场景基本上就是目前 Code Pilot的使用场景，所以只要把自己的工作屏幕分享给 GPT，配合语音交流，那么每个工程师就如同真正拥有了一个虚拟的编程同伴一起调试代码。这比目前已有的必须要通过文字聊天交互的效果要好的多 👍。

多模态统一的GPT-4o

GPT-4o的推出，不仅是技术上的飞跃，更是AI交互方式的一次革命 🚀。它免费、智能、多模态，并且即将推出Desktop版本 💻。GPT-4o在英语文本和代码上的性能与GPT-4 Turbo的性能相匹配，但在非英语文本上的性能显著提高，同时API的速度也更快，成本降低了50% 💸。与现有模型相比，GPT-4o在视觉和音频理解方面尤其出色 👀。它最快可以在232毫秒的时间内响应音频输入，平均响应时长320毫秒，与人类相似 👥。

GPT-4o的性能评估

OpenAI技术团队成员在X上表示，之前在LMSYS Chatbot Arena上引起广泛热议的神秘模型「im-also-a-good-gpt2-chatbot」就是GPT-4o的一个版本 🔍。在比较困难的prompt集上——特别是编码方面：GPT-4o相比于OpenAI之前的最佳模型，性能提升幅度尤其显著 🚀。具体来说，在多项基准测试中，GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉功能上实现了新高 🎉。

免费与高级功能的结合

每周都有超过一亿人使用ChatGPT，OpenAI表示GPT-4o的文本和图像功能今天开始免费在ChatGPT中推出，并向Plus用户提供高达5倍的消息上限 📈。现在打开ChatGPT，我们发现GPT-4o已经可以使用了 🎉。使用GPT-4o时，ChatGPT免费用户现在可以访问以下功能：

体验GPT-4级别智能
用户可以从模型和网络获取响应
分析数据并创建图表
和拍摄的照片对话
上传文件以获取总结、写作或分析方面的帮助
发现并使用GPTs和GPT应用商店
使用记忆功能打造更有帮助的体验

不过，根据使用情况和需求，免费用户可以使用GPT-4o发送的消息数量会受到限制 🚫。当达到限制时，ChatGPT将自动切换到GPT-3.5，以便用户可以继续对话 💬。

安全性与未来展望

在安全性问题上，GPT-4o通过过滤训练数据和通过训练后细化模型行为等技术，在跨模态设计中内置了安全性 🔒。OpenAI还创建了新的安全系统，为语音输出提供防护 🛡️。未来，模型能力的提升将实现更自然、实时的语音对话，并能够通过实时视频与ChatGPT进行对话 📹。例如，用户可以向ChatGPT展示一场现场体育比赛，并要求它解释规则 🏀。

总的来说，这短短的二十来分钟，并不能算是一个正式的产品发布会，所以把它叫做 Update 也是比较合适，有点像产品的 Demo Day，或者产品演示 🎉。不过虽然时间很短，信息却非常清晰：

免费
GPT4智能
多模态统一
Desktop 版本
Youtube: Introducing GPT-4o

#ai/openai/gpt4

生成式AI的崛起22: OpenAI 的春季更新，免费推出 GPT-4o

语音交互的革命

视觉识别的新高度

多模态统一的GPT-4o

GPT-4o的性能评估

免费与高级功能的结合

安全性与未来展望

Recent Update

Trending Tags

Contents

Trending Tags

生成式AI的崛起22: OpenAI 的春季更新，免费推出 GPT-4o

语音交互的革命

视觉识别的新高度

多模态统一的GPT-4o

GPT-4o的性能评估

免费与高级功能的结合

安全性与未来展望

Recent Update

Trending Tags

Contents

Further Reading

生成式AI的崛起11：ChatGPT, Bard, New Bing 是骡子是马，拉出来溜溜

生成式AI的崛起27：和AI一起按规范写代码 —— 试用 Spec Kit 的流水线式开发体验

RealChar.ai: A Realtime AI Character Chatbot with Real Voice

Trending Tags