继文生视频模型Sora 之后, OpenAI 再一次给外界带来惊喜。这一次,OpenAI 向世人展现了强大且丝滑的语音对话等多模态能力。5 月14 日凌晨1 点,在谷歌开发者大会前一天,预热已久的OpenAI 正式向公众发布了语音大模型GPT-4o(omnimodle,全能模型),可以综合利用语音、文本和视觉信息进行推理,扮演一个个人语音交互助手。而且,OpenAI 将会对这一模型免费向公众开放。
除了全新的大模型,OpenAI 也正式宣布推出ChatGPT 桌面版,“从今天开始,我们将首先向Plus 用户推出 macOS 应用,并在未来几周内向更广泛的用户开放。我们还计划在今年晚些时候推出Windows 版本”。
发布会全程只持续了26 分钟, OpenAI CEO 奥特曼没有现身,由公司CTO 和两位工程师来发布。现场演示的几个GPT-4o 对话场景却令人感到惊艳,整个对话的过程非常丝滑,不仅能说能听能看,还会有情绪的变化,就像是和一个真实的人在打视频电话。而通过OpenAI 现场演示的几个场景,我们也仿佛看到了科幻正在成为现实。
……
关注读览天下微信,
100万篇深度好文,
等你来看……