从60分到90分
- 来源:《第一财经》YiMagazine smarty:if $article.tag?>
- 关键字:情绪,迭代,探索 smarty:/if?>
- 发布时间:2024-08-23 21:12
到7月,我们开始做AI产品就满一周年了。一周年!要是一开始就知道要花整整一年,我肯定不会做。因为我原本只是打算在继续迭代阅览室之前做一些和“认真阅读”有关的探索而已。
不过,我这会儿的确不那么焦虑了。很多时候,人的情绪其实来自对自己的不满:如果自己当初再努力一些、再聪明一些、再体贴一些……情况也许会不一样呢?我现在认为,要做好一个AI应用,工作量就是挺大的,并不比做传统的互联网应用小。既然客观如此,那就没有什么对自己的不满了。
这听起来有点违背常识,毕竟这年头流传更广的故事是,某某某花了一个星期,利用下班后的业余时间,就上线了一个产品。此类故事里用来度量时间的单位也越来越短,从一个星期变成一个周末,再变成两个小时……在AI的加持下,如今编程的门槛确实越来越低,几秒钟内就可以请AI生成一个产品的完整代码。过去,拿到AI生成的代码后还得自己想办法运行,根据熟练程度这项工作要花几分钟到几小时不等。最近,Claude里上线了一个名为Artifacts的新功能,将这最后一步也打通了,可以让你直接体验AI生成的代码运行起来的效果。这么一来,将创意变成现实中的产品,真的只需要几秒钟了。
这些都是真的。经过这一年的工作,我现在明白:和开发传统应用相比,要做出一个60分的AI应用的确要容易得多,就像上面这些例子一样。但要从60分提升到90分,做AI应用反而会更艰难一些。
先说达到60分的部分。所谓60分,大概就是可以用来验证概念的产品原型,有一些亮点,同时也有更多的问题。对照着使用指南的话勉强能用,往往不太可靠,稍微摆弄一下可能就会散掉,还缺少很多基础功能,用户必须发挥一些想象力,才能“脑补”出最终成品的样子。
售价3万元起、装满了高精尖技术的Vision Pro是现在完成度最高的混合现实产品。与之对比,我家里还有一个纸盒,是2014年Google I/O的赠品。到手以后需要自己折叠,在上面安装两个塑料镜片并塞进纸盒,在手机上打开指定的演示应用,再将这个纸盒举到眼前—这就是一个最简单,甚至可以说简陋的虚拟现实(VR)头显了。
我就是在这样一个成本只需几块钱的纸盒里第一次体验到虚拟现实的。这就是VR的60分产品—显然无法日常使用,但足够让人从无到有地感受到虚拟现实的魅力。在AI应用这个领域,要做出60分的产品原型真的特别简单,我之前也建议过,如果你有一个想法,写一个提示词,就可以在ChatGPT这样的通用AI聊天界面中“模拟”出各种各样的产品形态了,还有类似Dify、Coze这样的工具可以让你在一行代码都不需要写的情况下,搭建出一个更复杂的AI应用原型。现在,国内许多大模型厂商也推出了类似OpenAI的GPTs这样的“智能体”平台,你还可以在上面搭建和发布自己的“产品”。归功于大语言模型本身的强大,其实你不需要做太多事情,也不难感受到自己做出来的这个产品的亮点。
这就是为什么一开始做的时候都很容易以为自己是天才,觉得明天就可以上线。
60分的产品非常有意义。类似Hackathon这样的活动,唯一鼓励的就应该是做出60分的东西,因为眼见才能为实。应该用充满想象力的乐观的心态来评价它们。但如果要交给用户使用,有不同的评价标准。这样子搭出来的产品可靠性都比较差,往往必须严格按照产品设计者设想的格式和流程输入文本,才能获得想要的结果。
再说从60分到90分。其实传统App的研发要从60分提高到90分也特别困难,主要是细节会越来越多。我之前打过一个比方,这就像从旧金山徒步前往洛杉矶,在地图上看只是一条四百多英里的海岸线而已,理论上7天就能走完。但实际上,沿途的地形地貌复杂多变,可能需要翻山越岭、涉水渡河,甚至绕道而行,最终的行程将远超预期。传统App研发收尾时的失控感就是来自此处,就像搬家时收拾东西一样,总是能在被遗忘的角落里多收拾出来几箱东西。
但起码你每天都知道自己是在往前走的,可以说进一寸有一寸的欢喜。
AI应用从60分到90分的过程则充满了不确定性和探索性。核心要改善的是可靠性,让大语言模型稳定地输出满足用户需求的结果,同时避开大语言模型的种种缺陷,比如幻觉。这个过程中你需要不断尝试调整提示词、参数,甚至重新设计编排和大语言模型的交互过程。由于大语言模型的“黑盒”特性,你很难知道是自己的哪个改动带来了效果的变化,甚至在大部分时候,改动带来的可能是负面效果。即使在某个地方实现了想要的效果,又可能导致你没有注意到的另外一个角落出现了一个新的问题。真是牵一发而动全身,颇有四处拆东墙补西墙的感觉。
有点像教小朋友学东西。
研发研发,顾名思义就是研究和开发。这两个字常被放在一起讲,但其实是两种不同的心态。开发更像是个工程问题,相对而言可以是严谨的、确定的;研究则是个科学问题,相对而言是探索性的、不确定的。传统App从60分到90分更像是工程问题,而AI应用到了这个阶段,我目前的感受是更像研究。
这中间很难熬,会经常被问到什么时候才能做完,但这是一趟看不到终点和路径的旅程,只能看到眼前的一点点路,实在是难以预估。
那么,为什么非要做到90分呢?
假如我们使用10次,有2到3次实现了令人惊艳的效果,从验证概念的角度就足以说明这个概念的有效性了。但从日常使用的角度,10次中有9次拿到了满意的结果,只有1次不行,也会动摇你日常使用这个产品的信心和习惯。今天市场上一般的消费级互联网产品,对可靠性的要求至少是“三个九”,也就是99.9%。影响力更大的产品要求往往更高。但今天的许多大语言模型产品,就任务完成率而言,我感觉可能连一半都没有,像我之前吐槽的Gemini for Google Workspace、Humane Ai Pin,还有rabbit r1等,都是这样。
最近在社交媒体上有一个帖子,问AI“3.9和3.11谁大”。大部分时候,AI会给出在常识看来错误的答案,告诉你3.11更大。有人说,这说明AI还很傻,连这么简单的数学都不会,离能取代我们的工作还远着呢。也有人说,这说明用户还不理解大语言模型的局限性,例如幻觉、数学逻辑推理能力不足等。
我觉得这两种说法都对。但我想说的是,为什么用户需要理解大语言模型的局限性?大语言模型的确数学还比较差,但今天大多数的AI产品都是让用户自由输入,也没有排斥用户输入数学问题。
目前很多AI产品的用户都是技术爱好者或者从业者,大家可以理解技术的局限,也会有更多宽容。但大众用户不会这么想,即使是乐意尝鲜的那一部分大众。这一点对所有的技术都是公平的。对任何一门技术来说,当它需要跨越鸿沟,从面向技术爱好者走向大众时,都需要满足大众用户对技术的预期。我们需要努力推动今天的AI产品走过这个阶段。
也不要说什么每个人都必须学会提示词工程。我们小时候类似的话听得多了。21世纪是生物的世纪,21世纪是计算机的世纪,21世纪不会英语不会开车不会编程将寸步难行……对于对新技术充满好奇心、希望快人一步的人来说,额外付出努力去比别人更早地理解技术当然是有好处的,也是应该鼓励的。但对于大多数人来说,从实用主义的角度完全不必担心。今天,计算机的确无处不在,但是3岁小朋友拿起手机也会用,不需要像我们以前那样还要先上打字课。智能手机及其应用在“适老”方面还存在各种问题,但大部分人并不需要特地“学习”手机如何使用。
技术在像我们这样的从业者的努力推动下(当然,背后更大的推动力其实是市场竞争),就是会不断向普通人靠拢的。随着模型能力的提升,所谓提示词工程的技巧也将越来越不重 要。
多说一句,那真正的核心能力是什么呢?家里亲朋知道我在做AI,问我,孩子还要学作文吗?和AI交互,核心还是理解语言,知道如何用语言来准确地表达自己的需求,让对方理解。学写作文,不是应试的那种套话文章,核心学习的就是这一点。这的确是一个日常必备的技能,除非某一天脑机接口的发展真的可以让AI成为你肚子里的蛔虫吧。
其实在大语言模型出现之前,这项技能也是欠缺的,尤其是甲方的朋友们。要不然“五彩斑斓的黑”这样的笑话是怎么出来的呢?
所以我想,还是要努力做到90分,即使这很难。
这和所谓的精益创业、最小可用产品的理念也不冲突。所谓90分,我觉得就是充分地做到了向用户宣称自己能做到的事情,有些无关紧要的事情仍然可以不做,比如初代的iPhone没有App Store、没有剪贴板、没有通知中心。产品的亮点应该做到90分,其他方面60分就可以。否则,如果产品失败了(这是大概率事件),很难判断是猜错了用户需求还是质量不好,既浪费了时间也浪费了想法。将核心体验做到位,如果还是失败(仍然是大概率事件),我们就很容易判断问题所在,时间换来的是宝贵的经验,这就是进步。
落差来自于开局过于容易,不免会对整个旅程的难度产生一些错误的预期。
其实还是低估了难度。我之前分享过自己的思路,正是因为模型的能力有局限,才需要通过产品设计来限制用户的输入、塑造合理的预期。只是,看到“胃之书”对AI的使用,我觉得其实我“切”的这一刀还不够狠。胃之书对AI的使用更加扬长避短一些。
这种看不到终点的旅程的确很难熬,中间很多时候我也想过放弃它继续做阅读,但总觉得半途而废是最浪费时间的。完整地走一遍整个过程,至少能学到很多新的东西。就好像现在走到了这里,回头一看,也算是豁然开朗,知道自己走了很远,也知道自己穿过了重重迷雾,能看到迷雾里的东西。所有走过的路必定会留下痕迹,即使这几个产品失败(还是大概率事件),我们至少掌握了做这个事情的一手经验,一定是有机会connecting the dots的。
好在最近的评测结果显示,我们产品的可靠性超过95%,接近99%了。还是没有传统产品那么可靠,但我觉得可以接受。
说不焦虑吧,其实还是焦虑的。大家都在探索,比的就是谁探索得快。更努力、更多地投入,还是可以做得更快的。这就是无限的想法和有限的能力之间的矛盾。