越过技术拐点的视频模型或许是个更有前景的生意

  记者/王杰夫 编辑/吴洋洋 美编/车玲玲

  本月的语言模型领域格外平淡,除了OpenAI最大的竞争对手Anthropic推出了最新模型Claude 3.5 Sonnet,几乎没有其他新模型、新技术的重磅消息,Claude的这次半代升级目标也只不过是追赶GPT-4o。可以说,2024年虽然已经过半,语言模型的智力依旧停留在2023年的水平,并没有太大长进。

  这种“原地踏步”的状态或许会比预想中持续更久。OpenAI首席技术官朱拉·穆拉蒂(Mira Murati)6月20日在母校达特茅斯工程学院的访谈透露的信息暗示了这种可能。她在访谈中先将GPT-3的智力水平比作幼儿,再将GPT-4的智力水平比作高中生,而对于博士级别的智能系统,在主持人的追问下,她表示从现在起还要差不多一年半的时间才会面世。

  从悲观的角度理解,OpenAI的下一代模型,也就是GPT-5的推出时间,可能要等到明年甚至后年,而非大部分人期待的今年夏天。更悲观一点,这可能意味着在过去一两年中OpenAI的大杀器—“规模定律”(Scaling Law)可能碰壁了,换句话说,哪怕堆更多数据、用更强算力训练出参数规模更大的模型,其智力水平的增长也非常有限。

  没有能力更强的模型就没有更多用户,产生不了足够多的收入也就无法覆盖高昂且固定的资本支出。在这个背景下,最近一周红杉资本美国合伙人David Chan的《AI的60 0 0亿美元问题》就容易理解了。他在这篇文章中指出,哪怕对Google、微软、字节跳动、阿里巴巴等技术公司从生成式AI中获得的收入做最乐观且慷慨的假设,与它们在AI基础设施上的投入(主要是采购英伟达GPU)相比,中间依然有近50 0 0亿美元的空缺。

  幸好,本月还有好消息。语言模型领域可能遇到了瓶颈,视频模型领域却格外热闹,OpenAI的Sora年初在湖中央投下的石子,终于在这个月激起了波浪。

  首先是普通用户终于可以体验类似Sora的视频模型产品了。要知道Sora自从在年初连续放出多个惊艳演示后就再无声息,这使得很多人对于这种技术是否真的有演示中那么强大表示怀疑,对于其商业前景的想象也就无从谈起。

  本月先后有两款视频模型开放了免费体验,分别是快手的“可灵”模型与Luma A I的Dream Machine模型。它们都借鉴了Sora的技术路线,并且从实际演示效果看,生成的视频虽然不及Sora惊艳,相比去年最好的视频模型如Pika 1.0、Gen-2只能生成“会动的照片”,这两款模型已经有了巨大进步—无论镜头如何运动,物体依然可以保持相对真实的透视效果,这种对物理世界的模拟能力正是Sora模型最引以为豪的突破。

  其次,Runway也在本月发布了新款模型G en-3 A lpha,极佳科技则发布了“视界一粟Yi Su”视频模型,它们没有向普通用户提供体验入口,但从公布的技术参数上看这两款模型都有亮点。Gen-3 Alpha生成视频的速度显著提升,只要9 0秒就可以生成长达10秒的视频;而“视界一粟YiSu”最大的特点是对算力的要求低,号称可以配置在端侧,支持生成最长16秒的视 频。

  最后,本月还出现了不少视频模型的真实用例。比如咪咕视频在欧洲杯赛事转播中就插入了由AI生成的宣传片《欧洲杯是什么?》;TikTok发布了一个提供给商家的AI工具,可以在一分钟内根据客户提供的产品信息生成视频。它们展现出视频模型在商业广告市场的潜力。

  或许是时候重新评估语言模型与视频模型的商业前景了。一直以来,语言模型因可以模拟人类思维而备受关注,毫无疑问,这是最有希望通往通用人工智能(AGI)的一条道路。然而,如果语言模型的能力在短时间内没有突破性进展,当前的大模型应用样例就很难发生本质改变。即使优化文本表达、总结内容等样例已经在当前技术水平下被打磨得足够成熟,它们也主要集中在个人生产力的提升 上。

  相比之下,视频生成模型虽然刚刚起步,却有着更大的想象空间。对比一下语言模型与视频模型当前的潜在应用场景可以发现,前者的场景更多是个人的、分散的,而后者的场景是产业化的、集中的。换句话说,前者解决了一个成本中心的问题,后者却可以在利润中心发挥作 用。

  视频是目前最流行的消费内容形态,无论是电影、电视剧,还是短视频。如果视频模型可以解决其中一半的产出,那么至少会是一个千亿美元规模的生意。而且别忘了,一切与利润中心相关的生意都更加容易推动。

关注读览天下微信, 100万篇深度好文, 等你来看……