解决一个难题

来源:《第一财经》YiMagazine
关键字:解决,难题,进展
发布时间:2024-09-25 16:19

　　最近的工作进展不错，我整个人也变得雀跃起来。

　　我一直没有具体介绍过现在在做的AI产品。按我的思维惯性，应该等正式发布再介绍，显得更郑重一些。但这个专栏本来就是与读者朋友分享创业进展的“月报”，在这里写东西也完全没有宣传目的，是应该多谈谈未完成的工作的。

　　最近半年我花时间在做的是一个AI笔记工具。AI和笔记结合是去年夏天定下来的命题之一。之前也分享过，对产品创新而言，AI带来的是技术可行性上的突破，所以不必花精力去寻找新的用户需求场景。我们当时在头脑风暴中问自己：有什么我们熟悉的、大多数人每天都要高频使用的场景，是大语言模型的文本理解和生成能力能帮得上忙的？最好是能帮得上大忙。

　　记笔记肯定是其中之一，这个场景我们也熟悉。阅读和笔记本来就密不可分，阅览室和过去轻芒中的笔记功能使用率都很高，单个用户动辄积累上百万字的马克划线记录。在这个场景中做的探索，之后也可以整合进阅览室。

　　当然，笔记本身是个很大的领域，不同人、不同笔记的用途和习惯很不一样。很多时候“笔记”是较为正式、完整的记录，例如课堂笔记、会议记录、读书笔记等，对笔记工具的管理、排版要求比较高。

　　我们最后挑选的方向，叫“便签”可能更合适一些。用朴实的语言来介绍，这是一个帮助你随手记灵感的工具，就像便签一样。例如，虽然这个专栏一个月只写一篇，但我日常会不时想到一些可以在下个月的专栏中谈论的话题，这些想法需要及时捕捉，否则会忘记。传统的笔记工具也可以服务这个场景，但脑子里的灵感像是正在思维的土壤中快速生长的种子，原始的想法如果直接写下来是非常混沌模糊的，等到再次回顾时，往往自己也看不懂了。如果在记录时仔细遣词造句，记录的速度又会远远跟不上灵感的枝叶生长的速度，会丢失很多想法。

　　AI能帮不少忙。理想的体验：随手记录任何一闪而过的想法、灵感、感受。只言片语，不需要完整的句子和段落，可以打字，也可以用语音。我们的AI便签会做两件事情，一是自动编辑，将你在仓促中输入的思维碎片整合成逻辑通顺、易于阅读的完整文本，这样你可以想到什么就写什么。二是自动追问，AI会根据记录的内容生成一些提示，可能是没有表达清楚的地方，也可能是可延展的想法，来帮助你梳理思路，激发新的灵感。

　　上期内容说，大语言模型应用从0分到60分特别容易，从60分到90分特别难，这正是来自做这个项目的感受。原型在去年8月下旬花了两周开发，然后用一个多月做到了可以上线测试的60分状态。从上线测试到现在，也就是想从60分提升到90分，则花了半年多的时间。

　　之前分享过上线测试时发现的最明显问题是语言问题。除此之外，还有一些更难的。

　　比如，这个工具就是用来捕捉用户非常碎片化、语焉不详的输入的，但这有一个度的问题。一般情况下，我们可以让大语言模型根据常识和上下文补全缺失的逻辑、主语等，但如果用户的输入实在无法理解，合理的做法是将用户的输入先原封不动记下来，再追问用户。实际上大语言模型在此时仍然会按照自己想当然的逻辑去补全，但这往往不是用户的原意。

　　要知道自己不知道，果然是更高阶的智慧。

　　再比如，用户也会在笔记中写自己的一些疑问，比如“宇宙的意义是什么？”，这种情况下，大语言模型也很容易自作主张在编辑笔记时将答案写进去。

　　这些都是AI自动编辑功能带来的问题，经测试，其他AI写作产品也有类似的问题。这些问题出现时，产品的使用体验反而不如传统的、“不智能”的笔记产品。要避免这些问题，最简单的做法就是让AI变得更保守一些，但这样的副作用是AI又会变“懒”，有许多该修改、该补全的地方也不改了，这也失去了产品价值。所以这其实是一个平衡，要有针对性地解决出错的地方，又不能让大语言模型过度保守。

　　核心当然是提示词。改提示词不难，难的是如何衡量修改效果，以及像上期专栏中提到的，如何避免不知不觉中拆了东墙补西墙。

　　这是个难题，但我觉得如果不解决这个问题，解决再多其他简单的问题也没有意义。所以我决定先难后易，在这上面选择了死磕。当然，要是一开始就知道要磕半年，可能我就放弃这个方向了。

　　这半年中有三四个月的时间是花在学习、摸索和搭建一个改进大语言模型应用的工作流。

　　首先，我需要先定义好清晰的标准和可度量的指标。我们希望大语言模型能将笔记编辑“好”，那什么叫“好”？一段文字是“好”是“坏”，有经验的编辑一眼就能看出来，但要教大语言模型如何当一个好编辑，还需要更针对性地提出要求和标准。

　　我花一两周时间收集了大约150个我们的AI便签表现得“坏”的例子，又收集了一些表现得“好”的例子，然后根据这些例子来归纳、总结“好”“坏”的标准，以及打分的量表。比如，不能曲解用户的原有意图，不要用长句子，新输入的信息不一定放到最后而是应该放置到逻辑上合理的位置，多用转折词来连接，等等。一开始大约总结了20条标准，然后拿实际例子去尝试打分，发现不合理的时候再回去修改标准。由于标准一开始比较模糊和抽象，边打分边修改的速度非常缓慢，这又花了我两个多月的时间。

　　完成这项工作后，对现在产品的表现就有了定量评分，可以开始修改提示词并且定量评估效果了。每次修改完提示词后我会运行这150个例子，此时可以粗略看一下表现如何。在修改接近完成、准备提交时，则会用20个标准全面测评打分，以确保改进效果和避免副作用。修改提示词有时候确实有牵一发而动全身的感觉，有些微小的修改会对看似毫不相关的地方产生影响。

　　我发现要进入心流，做的事情不能太难，也不能太简单。打分过程我做得非常缓慢，一开始是因为太难，需要一边打分一边调整打分标准。后来则是因为太简单，很容易开小差。以后可以考虑交给大语言模型自己来打分了。

　　我在这个AI便签工具中也实践了许多之前讲到的产品设计原则。比如用户不需要输入任何prompt，开箱即用；比如AI不能为你代笔，我的产品不能像其他AI工具一样输入一句话的提示词，就编出来几千字洋洋洒洒的文章。我们试图让AI做一个好的编辑，通过编辑和提问来帮你挖掘自己的想法，并表达清楚。

　　比如我们想探索聊天之外的可能性，不做聊天界面。AI便签不是聊天机器人，也不是什么“万能”的AI助理，而是一个专注于“捕捉灵感”的AI笔记工具。

　　但我们的自动追问功能一开始生成的问题非常像一个人在跟你聊天，会有客套话、有赞美。有不少用户会认为这些追问是必须回复的。这时候我就意识到，这些追问过于“人性化”了。

　　“人性化”在日常语境中往往是个褒义词。我第一次意识到“人性化”并不总是好的，还得益于之前在Google工作时，搜索产品的主管Marrisa Mayer要求Google的搜索结果界面一定要显得是冷冰冰的机器生成的，而不要有人工干预的痕迹，因为这样子会显得更加客观公正。

　　在这个AI便签工具中，“人性化”也是不好的，因为会影响效率。理想的状况下，用户快速连续输入自己的灵感，看到有意思的AI追问时可以展开讲讲，大部分情况下可以直接无视。这是个工具，你不需要和它客套、聊天，不需要顾及其感受。但如果对面是个“人”，无视别人的提问显然是很不礼貌的，因此或多或少，潜意识里会有必须回答的心理压力。

　　有一个我们很喜欢的功能最终因此放弃，就是给追问加emoji。加上emoji的追问的确生动有趣了很多，但人们会更容易觉得是在和一个“人”对话。

　　搭完工作流后，我大约花了一个月重写提示词，不断修改、测评，改进上面提到过的那些问题。最后，重要指标达到了上次说的95%准确率，我满意了。一旦解决了最难的问题，剩下的问题虽然仍然很多很琐碎，就像之前我打的比方中从旧金山徒步到洛杉矶会遇到的障碍一样，但每个问题都可以迎刃而解，工作节奏很快。这种情况下也挺容易进入心流的。这就是上期专栏最后说的，走出迷雾的感觉。

　　现在我自己用这个产品来记录灵感，也很容易进入心流。

　　这款产品会有一个新名字，并在海外率先上线。我相信这是一个新物种，能带来一种新的、和过去所有的体验都不一样的记录灵感的方式。它仍然不一定能成功，但经过这半年的优化，如果不成功，应该可以颇为确定，是我对用户需求的假设不准确，而不是因为产品质量不过关。

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容