越过技术拐点的视频模型或许是个更有前景的生意

来源:《第一财经》YiMagazine
关键字:技术,拐点,模型
发布时间:2024-07-30 10:50

　　记者／王杰夫编辑／吴洋洋美编／车玲玲

　　本月的语言模型领域格外平淡，除了OpenAI最大的竞争对手Anthropic推出了最新模型Claude 3.5 Sonnet，几乎没有其他新模型、新技术的重磅消息，Claude的这次半代升级目标也只不过是追赶GPT-4o。可以说，2024年虽然已经过半，语言模型的智力依旧停留在2023年的水平，并没有太大长进。

　　这种“原地踏步”的状态或许会比预想中持续更久。OpenAI首席技术官朱拉·穆拉蒂（Mira Murati）6月20日在母校达特茅斯工程学院的访谈透露的信息暗示了这种可能。她在访谈中先将GPT-3的智力水平比作幼儿，再将GPT-4的智力水平比作高中生，而对于博士级别的智能系统，在主持人的追问下，她表示从现在起还要差不多一年半的时间才会面世。

　　从悲观的角度理解，OpenAI的下一代模型，也就是GPT-5的推出时间，可能要等到明年甚至后年，而非大部分人期待的今年夏天。更悲观一点，这可能意味着在过去一两年中OpenAI的大杀器—“规模定律”（Scaling Law）可能碰壁了，换句话说，哪怕堆更多数据、用更强算力训练出参数规模更大的模型，其智力水平的增长也非常有限。

　　没有能力更强的模型就没有更多用户，产生不了足够多的收入也就无法覆盖高昂且固定的资本支出。在这个背景下，最近一周红杉资本美国合伙人David Chan的《AI的60 0 0亿美元问题》就容易理解了。他在这篇文章中指出，哪怕对Google、微软、字节跳动、阿里巴巴等技术公司从生成式AI中获得的收入做最乐观且慷慨的假设，与它们在AI基础设施上的投入（主要是采购英伟达GPU）相比，中间依然有近50 0 0亿美元的空缺。

　　幸好，本月还有好消息。语言模型领域可能遇到了瓶颈，视频模型领域却格外热闹，OpenAI的Sora年初在湖中央投下的石子，终于在这个月激起了波浪。

　　首先是普通用户终于可以体验类似Sora的视频模型产品了。要知道Sora自从在年初连续放出多个惊艳演示后就再无声息，这使得很多人对于这种技术是否真的有演示中那么强大表示怀疑，对于其商业前景的想象也就无从谈起。

　　本月先后有两款视频模型开放了免费体验，分别是快手的“可灵”模型与Luma A I的Dream Machine模型。它们都借鉴了Sora的技术路线，并且从实际演示效果看，生成的视频虽然不及Sora惊艳，相比去年最好的视频模型如Pika 1.0、Gen-2只能生成“会动的照片”，这两款模型已经有了巨大进步—无论镜头如何运动，物体依然可以保持相对真实的透视效果，这种对物理世界的模拟能力正是Sora模型最引以为豪的突破。

　　其次，Runway也在本月发布了新款模型G en-3 A lpha，极佳科技则发布了“视界一粟Yi Su”视频模型，它们没有向普通用户提供体验入口，但从公布的技术参数上看这两款模型都有亮点。Gen-3 Alpha生成视频的速度显著提升，只要9 0秒就可以生成长达10秒的视频；而“视界一粟YiSu”最大的特点是对算力的要求低，号称可以配置在端侧，支持生成最长16秒的视频。

　　最后，本月还出现了不少视频模型的真实用例。比如咪咕视频在欧洲杯赛事转播中就插入了由AI生成的宣传片《欧洲杯是什么？》；TikTok发布了一个提供给商家的AI工具，可以在一分钟内根据客户提供的产品信息生成视频。它们展现出视频模型在商业广告市场的潜力。

　　或许是时候重新评估语言模型与视频模型的商业前景了。一直以来，语言模型因可以模拟人类思维而备受关注，毫无疑问，这是最有希望通往通用人工智能（AGI）的一条道路。然而，如果语言模型的能力在短时间内没有突破性进展，当前的大模型应用样例就很难发生本质改变。即使优化文本表达、总结内容等样例已经在当前技术水平下被打磨得足够成熟，它们也主要集中在个人生产力的提升上。

　　相比之下，视频生成模型虽然刚刚起步，却有着更大的想象空间。对比一下语言模型与视频模型当前的潜在应用场景可以发现，前者的场景更多是个人的、分散的，而后者的场景是产业化的、集中的。换句话说，前者解决了一个成本中心的问题，后者却可以在利润中心发挥作用。

　　视频是目前最流行的消费内容形态，无论是电影、电视剧，还是短视频。如果视频模型可以解决其中一半的产出，那么至少会是一个千亿美元规模的生意。而且别忘了，一切与利润中心相关的生意都更加容易推动。

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容