出口成章
- 来源:《第一财经》YiMagazine smarty:if $article.tag?>
- 关键字:道理,评估,标准 smarty:/if?>
- 发布时间:2025-04-25 11:23
我从小就不喜欢当众发言,觉得自己缺少一些“急智”,没有办法出口成章,经常说到后面就忘了前面—用大语言模型的评估标准来说,就是上下文窗口太小。写字就不存在这个问题,写出来的东西在要拿给别人读之前,总是有充分的时间可以反复推敲的。所以,我更喜欢写作而非演讲。
“演讲”这个词听起来颇为严肃,实际上在我们的当代日常生活中却有着广泛的应用,其中最常见的就是微信的60秒语音消息。对我来说,要一口气说60秒话且说得滴水不漏是一件很可怕的事情,所以除非走投无路,我从来不发语音消息。偶尔用语音输入,也要转成文本,仔细编辑后才发送出去。
有时候确实没那个条件。写东西需要把想法整理清楚,这是写作的优点,也是缺点。当灵感闪现,可能是洗澡、上厕所时,也可能是开车、散步时,又或者是清晨醒来、半夜惊醒的瞬间。先不说这些灵感迸发的时刻是不是方便打字,假如每个想法都必须整理清楚才有资格被记录,那绝大部分的灵感早就消失无踪了。
过去也有很好用的语音备忘录产品,例如“锤科残党”们念念不忘的、锤子手机上的“闪念胶囊”,我以前也经常使用,它可以将语音输入即时转换为文字笔记。不过,写作和口述是两种挺不一样的表达方式,写作需要连贯的思考和逻辑,而我们的思维往往是跳跃和碎片的。因此,虽然语音转文本的技术在移动互联网的时代早已成熟,将语音转换为文字内容时能做到95%的准确率,记录下来的内容若不经处理,往往可读性很差,保留了所有口头表达的缺陷。如果你阅读过播客音频转化出来的逐字稿,应该会有类似的感受。有些名人的演讲,看视频、听录音都非常引人入胜,一旦印出来变成书却读之索然无味,也是这个道理。
久而久之,我就不用语音记录了,毕竟我确实无法做到连续五分钟条理清晰地阐述一个主题。
拜大语言模型所赐,从2023年开始,国内外都出现了AI语音笔记这种新的产品形态。和传统的语音备忘录不同,AI语音笔记不仅可以将语音转为文字,在这个基础上往往还会自动整理、润色和提炼要点等。
早期国外的此类产品多为独立开发者开发,如AudioPen、Voicenotes和Cleft等,可能是为了更好承接用户的已有需求,也覆盖了会议笔记、采访记录、课堂讲座录音等长录音场景,支持的单次录音时间从15分钟到90分钟不等,甚至也有支持无限时长的。可以理解,对专业用户来说,将动辄几个小时的录音一键整理成纪要,节约下来的时间更肉眼可见一些。
然而,我觉得强调这些场景,反而模糊了AI语音笔记对普通人的真正魅力:捕捉思维碎片。
想象一下,你一边洗澡一边对着智能手表(注意选购防水的)说出一连串零散的想法,AI将其自动整理成文,等你洗完澡的时候就能在手机上看到一篇逻辑通顺、行文简洁的文字,这才是“出口成章”的体验。从“说话”到“成文”,这种飞跃带来的表达的流畅感,也会让你在输出思维碎片时更加自如。你会相信,不管你怎么说话,AI都会努力将最终呈现出来的文本变得清晰、易读,自己日后回顾也会非常方便。
将AI比喻成私人助理反而限制了其中的想象力。正如我以前提到过的,AI的价值不仅是取代已有人类的工作,更大的想象力是让这些博士水平的助理来做你以前根本想不到可以雇人来替你完成的事情。过去,即使有助理,我也不好意思让助理随时记录每天这些零零碎碎的所思所想,更别说上面的某些场合并不方便有其他人在场……
这种表达的流畅感给我带来了前所未有的自由感。我自认英语还不错,但自从发现和ChatGPT类产品沟通时可以完全不顾及单词拼写、单复数、时态,我享受到了前所未有的英语表达的顺畅感,我管这个叫“语法自由”。今天,AI语音笔记也让我至少在AI面前实现了“说话自由”:不必字斟句酌,想到什么就说什么,可以坦然接受自己口齿不清、前言不搭后语……反正总是可以“出口成章”的。
这样子一来,至少对我来说,语音输入的门槛终于降到比文字记录更低了—前提是没有他人在场。
实际上,作为一个尝试,这篇文章的草稿就是由我对AI口述完成的,录制素材的时候我完全是想到哪里说哪里,东一点西一点。AI先把这些片段整理为一条条笔记,我再将这些笔记作为素材全部复制粘贴给大语言模型,整理成逻辑通顺的提纲(经过对比,Claude 3.7 Sonnet交的作业胜出),然后我在模型完成的初稿上自己继续修改、润色。所有的思考仍然出自我本人,AI更像是一位帮助整理和连接的记者。
说到记者,有一个叫Autobiographer的App就将这个体验做到了极致。这是一位做过记者的投资人向我推荐的产品,是一个AI“传记记者”,可以帮你写自传。开始“采访”后,屏幕上会显示它问你的问题,你用语音回答就可以。大多数人都没有被记者采访的经历,更别说是一个私人的传记作者,对我来说,这个“记者”问的问题是及格的,至少我愿意花点时间去回答。当然,我和人类记者说话时可不敢如此“说话自由”。
我断断续续录了一个小时,积累了大概5000个单词。这个App要积累到5万个单词才可以生成完整的“自传”,但你也可以在这个过程中翻阅“记者”的笔记本。我看了一下,目前为止它对我第一段创业经历的记录还是挺完整的。
暂且不论有多少人想给自己写传记,这个产品让我想到,AI语音输入的体验可能确实需要一些不同的包装,才能帮更多像我一样的用户克服对语音记录、说大段独白的恐惧。自传是将零散的记忆和故事组织成连贯的叙事,接受记者采访,回答记者的问题,要比“独白”更好理解,也更容易。当你接受采访时、正常情况下也不必担心回答的每一句话都会原封不动地印出来,一定是会被经过调整、润色的,这个体验很相似。
若想用语音来记录碎片想法,今天市面上确实还没有很理想的产品。一方面,前面提到,大部分产品要考虑会议录音等时间更长的场景,默认会显示至少5分钟的进度条,需要用户一气呵成,即使中间可以暂停,使用压力还是挺大的。
另一方面,AI润色的力度也不容易平衡。做得太少,用户不容易感受到产品价值,但一不小心做得太多,也会让你觉得最终呈现的不再是自己的想法,而是AI的。理想状态下,AI应该在语音转文字的基础上,自动去除“嗯、啊、呃”等语气词,将逻辑不通顺的地方改得通顺,把碎片化内容整合成完整叙述,删除冗余和重复的语句,就可以了。比如,有时候AI会用对我来说陌生的词汇来总结我的想法,或者擅自回答笔记中类似“宇宙的终极意义是什么”这种自问自答的问题,这在我测试的AI语音笔记产品中很常见。笔记试图捕捉的是自己的思考,是给未来的自己看的,AI越俎代庖、替用户进行了思考,就是个不好的使用体验了。
也不需要追求什么“原汁原味”,人会使用工具,工具也会塑造人。过去人们确实习惯了“深思熟虑再记录”,但假如完全按照用户过去的习惯来设计产品,用户的行为就无法进化。举个例子,人们开始用数码相机拍照后,不会再有使用胶卷时的仪式感;工具换成手机后,拍照更是一件可以随手做的事情。废片是变多了,但记录下来的生活瞬间也变多了,整体记录的丰富度大大提升。与之类似,AI语音笔记如果可以让你更频繁、更碎片化地记录想法,即使其中大部分想法都会被扔掉,能被记录下来的有趣的想法仍然会比原来更多。就和如今的计算摄影技术已经模糊了“原图”的定义一样,AI应该起的作用是将人的思考提取、整理出来,真正有价值的是思考本身,而非表达的原始形态。
不管是口述还是写作,人的语言是非常局限的,对于内心丰富的流动的想法的表达更是如此。假如AI语音笔记可以降低自我表达的门槛,捕捉更多我们的想法,这就是很大的价值。
当然,这不见得是一个创业的好想法。
