解决一个难题
- 来源:《第一财经》YiMagazine smarty:if $article.tag?>
- 关键字:解决,难题,进展 smarty:/if?>
- 发布时间:2024-09-25 16:19
最近的工作进展不错,我整个人也变得雀跃起来。
我一直没有具体介绍过现在在做的AI产品。按我的思维惯性,应该等正式发布再介绍,显得更郑重一些。但这个专栏本来就是与读者朋友分享创业进展的“月报”,在这里写东西也完全没有宣传目的,是应该多谈谈未完成的工作的。
最近半年我花时间在做的是一个AI笔记工具。AI和笔记结合是去年夏天定下来的命题之一。之前也分享过,对产品创新而言,AI带来的是技术可行性上的突破,所以不必花精力去寻找新的用户需求场景。我们当时在头脑风暴中问自己:有什么我们熟悉的、大多数人每天都要高频使用的场景,是大语言模型的文本理解和生成能力能帮得上忙的?最好是能帮得上大忙。
记笔记肯定是其中之一,这个场景我们也熟悉。阅读和笔记本来就密不可分,阅览室和过去轻芒中的笔记功能使用率都很高,单个用户动辄积累上百万字的马克划线记录。在这个场景中做的探索,之后也可以整合进阅览室。
当然,笔记本身是个很大的领域,不同人、不同笔记的用途和习惯很不一样。很多时候“笔记”是较为正式、完整的记录,例如课堂笔记、会议记录、读书笔记等,对笔记工具的管理、排版要求比较高。
我们最后挑选的方向,叫“便签”可能更合适一些。用朴实的语言来介绍,这是一个帮助你随手记灵感的工具,就像便签一样。例如,虽然这个专栏一个月只写一篇,但我日常会不时想到一些可以在下个月的专栏中谈论的话题,这些想法需要及时捕捉,否则会忘记。传统的笔记工具也可以服务这个场景,但脑子里的灵感像是正在思维的土壤中快速生长的种子,原始的想法如果直接写下来是非常混沌模糊的,等到再次回顾时,往往自己也看不懂了。如果在记录时仔细遣词造句,记录的速度又会远远跟不上灵感的枝叶生长的速度,会丢失很多想法。
AI能帮不少忙。理想的体验:随手记录任何一闪而过的想法、灵感、感受。只言片语,不需要完整的句子和段落,可以打字,也可以用语音。我们的AI便签会做两件事情,一是自动编辑,将你在仓促中输入的思维碎片整合成逻辑通顺、易于阅读的完整文本,这样你可以想到什么就写什么。二是自动追问,AI会根据记录的内容生成一些提示,可能是没有表达清楚的地方,也可能是可延展的想法,来帮助你梳理思路,激发新的灵感。
上期内容说,大语言模型应用从0分到60分特别容易,从60分到90分特别难,这正是来自做这个项目的感受。原型在去年8月下旬花了两周开发,然后用一个多月做到了可以上线测试的60分状态。从上线测试到现在,也就是想从60分提升到90分,则花了半年多的时 间。
之前分享过上线测试时发现的最明显问题是语言问题。除此之外,还有一些更难的。
比如,这个工具就是用来捕捉用户非常碎片化、语焉不详的输入的,但这有一个度的问题。一般情况下,我们可以让大语言模型根据常识和上下文补全缺失的逻辑、主语等,但如果用户的输入实在无法理解,合理的做法是将用户的输入先原封不动记下来,再追问用户。实际上大语言模型在此时仍然会按照自己想当然的逻辑去补全,但这往往不是用户的原 意。
要知道自己不知道,果然是更高阶的智 慧。
再比如,用户也会在笔记中写自己的一些疑问,比如“宇宙的意义是什么?”,这种情况下,大语言模型也很容易自作主张在编辑笔记时将答案写进去。
这些都是AI自动编辑功能带来的问题,经测试,其他AI写作产品也有类似的问题。这些问题出现时,产品的使用体验反而不如传统的、“不智能”的笔记产品。要避免这些问题,最简单的做法就是让AI变得更保守一些,但这样的副作用是AI又会变“懒”,有许多该修改、该补全的地方也不改了,这也失去了产品价值。所以这其实是一个平衡,要有针对性地解决出错的地方,又不能让大语言模型过度保 守。
核心当然是提示词。改提示词不难,难的是如何衡量修改效果,以及像上期专栏中提到的,如何避免不知不觉中拆了东墙补西墙。
这是个难题,但我觉得如果不解决这个问题,解决再多其他简单的问题也没有意义。所以我决定先难后易,在这上面选择了死磕。当然,要是一开始就知道要磕半年,可能我就放弃这个方向了。
这半年中有三四个月的时间是花在学习、摸索和搭建一个改进大语言模型应用的工作 流。
首先,我需要先定义好清晰的标准和可度量的指标。我们希望大语言模型能将笔记编辑“好”,那什么叫“好”?一段文字是“好”是“坏”,有经验的编辑一眼就能看出来,但要教大语言模型如何当一个好编辑,还需要更针对性地提出要求和标准。
我花一两周时间收集了大约150个我们的AI便签表现得“坏”的例子,又收集了一些表现得“好”的例子,然后根据这些例子来归纳、总结“好”“坏”的标准,以及打分的量表。比如,不能曲解用户的原有意图,不要用长句子,新输入的信息不一定放到最后而是应该放置到逻辑上合理的位置,多用转折词来连接,等等。一开始大约总结了20条标准,然后拿实际例子去尝试打分,发现不合理的时候再回去修改标准。由于标准一开始比较模糊和抽象,边打分边修改的速度非常缓慢,这又花了我两个多月的时间。
完成这项工作后,对现在产品的表现就有了定量评分,可以开始修改提示词并且定量评估效果了。每次修改完提示词后我会运行这150个例子,此时可以粗略看一下表现如何。在修改接近完成、准备提交时,则会用20个标准全面测评打分,以确保改进效果和避免副作用。修改提示词有时候确实有牵一发而动全身的感觉,有些微小的修改会对看似毫不相关的地方产生影响。
我发现要进入心流,做的事情不能太难,也不能太简单。打分过程我做得非常缓慢,一开始是因为太难,需要一边打分一边调整打分标准。后来则是因为太简单,很容易开小差。以后可以考虑交给大语言模型自己来打分 了。
我在这个AI便签工具中也实践了许多之前讲到的产品设计原则。比如用户不需要输入任何prompt,开箱即用;比如AI不能为你代笔,我的产品不能像其他AI工具一样输入一句话的提示词,就编出来几千字洋洋洒洒的文章。我们试图让AI做一个好的编辑,通过编辑和提问来帮你挖掘自己的想法,并表达清 楚。
比如我们想探索聊天之外的可能性,不做聊天界面。AI便签不是聊天机器人,也不是什么“万能”的AI助理,而是一个专注于“捕捉灵感”的AI笔记工具。
但我们的自动追问功能一开始生成的问题非常像一个人在跟你聊天,会有客套话、有赞美。有不少用户会认为这些追问是必须回复的。这时候我就意识到,这些追问过于“人性化”了。
“人性化”在日常语境中往往是个褒义词。我第一次意识到“人性化”并不总是好的,还得益于之前在Google工作时,搜索产品的主管Marrisa Mayer要求Google的搜索结果界面一定要显得是冷冰冰的机器生成的,而不要有人工干预的痕迹,因为这样子会显得更加客观公 正。
在这个AI便签工具中,“人性化”也是不好的,因为会影响效率。理想的状况下,用户快速连续输入自己的灵感,看到有意思的AI追问时可以展开讲讲,大部分情况下可以直接无视。这是个工具,你不需要和它客套、聊天,不需要顾及其感受。但如果对面是个“人”,无视别人的提问显然是很不礼貌的,因此或多或少,潜意识里会有必须回答的心理压 力。
有一个我们很喜欢的功能最终因此放弃,就是给追问加emoji。加上emoji的追问的确生动有趣了很多,但人们会更容易觉得是在和一个“人”对话。
搭完工作流后,我大约花了一个月重写提示词,不断修改、测评,改进上面提到过的那些问题。最后,重要指标达到了上次说的95%准确率,我满意了。一旦解决了最难的问题,剩下的问题虽然仍然很多很琐碎,就像之前我打的比方中从旧金山徒步到洛杉矶会遇到的障碍一样,但每个问题都可以迎刃而解,工作节奏很快。这种情况下也挺容易进入心流的。这就是上期专栏最后说的,走出迷雾的感觉。
现在我自己用这个产品来记录灵感,也很容易进入心流。
这款产品会有一个新名字,并在海外率先上线。我相信这是一个新物种,能带来一种新的、和过去所有的体验都不一样的记录灵感的方式。它仍然不一定能成功,但经过这半年的优化,如果不成功,应该可以颇为确定,是我对用户需求的假设不准确,而不是因为产品质量不过 关。