AI知识库:让沉睡的数字记忆重获新生

  在一本月刊上写“AI实用手册”确实风险不小。

  就拿上期专栏来说吧,我想探讨的是新一代推理模型能否真正解决我们工作中“最难的问题”。写的时候,我用的是OpenAI的o1。结果DeepSeek恰好在截稿当晚发布了R1,完美错过。

  倒不是说内容会瞬间过时。我写这个专栏时希望,既然是印在纸上的文字,尽量做到在一年后读也有价值。上期专栏探讨的是推理模型,而同日发布的R1和Kimi的k1.5都是和o1能力相近的推理模型,现在再读上期专栏,对理解它们在实际应用中的能力和局限也有帮助。唯一的遗憾是,由于文中没有直接提到R1,读者需要自行建立这个关联。

  R1相对o1带来了几项重要改进:可以联网搜索,这样就不会“不知魏晋”了;默认展示推理过程,让用户能更直观地看到推理模型的神奇之处—很多时候推理过程比结果更值得一读。最重要的是,DeepSeek将OpenAI的付费功能变成了免费服务,又凭借开放策略让它在市场上遍地开花,让数以千万计的人第一次体验到了推理模型的魅力。人们很快发现了许多不太“正经”的创新玩法:写同人小说、角色扮演游戏、占卜算卦……连跟它模拟谈恋爱都觉得它带有理科男特有的蠢萌感。这样一来,推理模型就不再局限于解决上期专栏提到的“最难的问题”了。

  这其实就是新技术发展的规律,只是现在变化得更快了。随着成本降低,新技术从专业领域走向日常化、娱乐化场景,变成真正的创新。继续用我们的比喻,如果说大语言模型就像是一个接受过良好通识教育但不具有专业知识的助理,那么推理模型就把这位助理的学历从本科升级成了博士,而成本的快速下降让每个人都能拥有不止一个助理,可能是成千上万个。上万个!想象你有1万个博士当助理—那你可不得给他们找各种鸡毛蒜皮的活儿来干?

  所以,新技术的有趣之处不在于替代现有劳动力,而在于它能做那些你今天根本想不到可以雇人来做的事情。

  其中一件这样的事情,就是“AI知识 库”。

  先不去管它的定义,每个互联网资深用户肯定都像仓鼠一样囤积了不少东西。“将来可能用得上”的资料:电子书、课程讲义、数以千计的待读文章,各类行业的研究报告和幻灯片,微信、小红书、即刻等社交应用中的收藏夹,手机相册里的无数截图,还像很多父母一样,网盘中存着大量“也许孩子将来用得上”的学习资料……

  这当中的许多囤积,是源于对知识匮乏的恐惧。有研究人员将这种习惯称之为“数码囤积症”(digital hoarding),数码仓鼠们收藏了过多资料却从不学习,确实是一个让人焦虑的不良习惯。

  AI能在很大程度上解决这个问题。这并不是说让AI来替你学习—学习只能由自己完成。但换个角度来想,并非所有知识都需要经过学习才能被我们使用。很少有人会把字典从头到尾读完,大部分我们一生中可能用到的知识,只要在需要时知道怎么去找就够了。

  AI能帮你做到这一点。以前的问题是,你收集的学习资料不像字典那么结构化,如果不学习一遍,等将来要用的时候你也无法找到,甚至不知道这个知识的存在。有了AI后,可以将它想象成一位不知疲倦的图书管理员,它能将你所有的藏书通读一遍。虽然它不是某个领域的专家,但它会努力用自己的常识来理解每本书的每一页讲了什么、包含什么概念,并记录下来。和传统的关键词搜索不同,当你向这位管理员提问时,它能理解你的问题,找出概念上相关的段落,重新组织语言将这些内容整合为完整的叙述来回答你,而不是机械地查找关键词。

  日常使用中最让我惊喜的是,它能在我熟读的书中挖掘出我未曾想到过的角度。比如我将收集的育儿书籍交给AI,问它“孩子沉迷奥特曼卡片怎么办?”,它用一本近百年前的书中的观点回答了我。显然,百年前的书不知道什么奥特曼,也不知道现代儿童会流行收集“谷子”,但书中关于儿童的收藏偏好和占有欲的见解仍然适用。

  R1近乎免费的价格,让我毫不犹豫地将我的图书管理员升级成了博士学历,它在看似毫不相关的资料中推演出意想不到的角度的能力也大幅增强,你还能看到它如何鉴别信源、思考问题。不过,所谓巧妇难为无米之炊,AI仍依赖我们人类来提供可靠的信息源。如果你在某个专业领域收集了足够全面、高质量的资料,以此建立AI知识库,就相当于创造了一个很棒的垂直搜索产品,回答质量应该能轻松超出市面上的通用AI搜索。

  我们收集的内容中,还有大量互联网碎片信息。如果你搜索“知识库”搭建教程,它们往往会强调知识库应该是“结构化”“体系化”的。

  但大部分日常信息本就不是体系化的,过度追求结构反而限制了知识的活力。何况,大语言模型在大量碎片信息中大海捞针、穿针引线的能力远超人类。对它们来说,所有文本都是一串串token,并不需要特别的结构。春节前,我们让AI阅读了阅览室去年推荐过的大约300篇和个人成长有关的文章,然后根据用户的新年愿望给出具体建议,并生成一张带有座右铭的手机壁纸。例如,我的新年愿望是“产品准时上线”,AI敏锐地建议我要避免完美主义,并生成了一张写着“许多伟大事业都是从某人说‘这有多难’开始的”图片,它就是我现在的手机壁纸。

  我也试着把我去年全年的日记给AI,请它归纳我情绪的变化和困扰的来源,这让我从新角度看到了自己。

  很多人忽略了AI还能利用知识库中的现有素材再创作。这篇文章的提纲就是用R1生成的。我把我日常记录零碎想法的笔记本和本专栏的定位提供给它,AI就在这些未经整理的碎片中找出了与知识库、知识管理相关的碎片,连点成线,串联成了文章的雏形。用同样的方法来生成新产品策划,效果也令人惊喜。

  这让我反思各种知识管理的方法论。在计算机进入人们的生活之前,我们就发明了各种笔记方法来手动为知识建立索引。某种意义上,我们花费大量时间整理笔记,都是为了方便将来查找和回顾,这实际上是在和想象中的未来的自己对话,一种难度极高的未卜先知。我觉得,这些“管理”工作反而让我们成为知识的仆从,而不是知识的主人。

  Gmail在2004年发布时有一句令我印象深刻的宣传语:“Search, don’t sort”(搜索即可,无需分类),这也改变了我管理邮箱的习惯,就是不再管理。AI时代既然已经到来,我们也应该用新的方式来积累和管理知识。最好的知识管理工具,就是不需要管理。既然AI能够唤醒我们积累的零散知识,我完全接受自己的笔记习惯与“结构化”“体系化”背道而驰—想到什么就随手记下来。在我看来,快速捕捉思维碎片,比构建深思熟虑的体系化知识更重 要。

  不过,今天暂时还没有完美的工具。最简单的实践方法,是直接把文本贴到和AI的对话框中,或将文件作为附件上传。如果还不够用,可选用专门的“知识库”工具,每个工具都有一些不同的限制:数量、容量、格式、单个文件字数……没有哪个工具能将我收集的文件一次导入。更糟的是,社交应用的数据导出往往很麻烦,甚至可以说不可能。即使我用AI编程工具写了各种格式转化、切割、数据抓取和下载工具,对有些数据还是无能为力。

  即使克服了这些困难,这些工具还有一个根本问题:它们都将知识库和日常积累知识的场所割裂开了。这样一来,只适合用它们建立静态的知识库。想活用实时更新的日常零散知识,要么使用本身具备AI搜索问答能力的知识积累工具(比如我使用的Notion),要么就得改变收集知识的习惯,按知识库产品的要求来收集。

  这也是为什么我觉得这个领域要创业有点难,因为要让人改变习惯非常困难,为已经存放了用户数据的产品增加AI搜索问答能力则容易很多。稍微畅想一下,如果微信可以直接把你的聊天记录变成知识库,那该有多强 大。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: