平台野心 穿越设备界限的“对话”
- 来源:IT经理世界 smarty:if $article.tag?>
- 关键字:智能音箱,语音交互 smarty:/if?>
- 发布时间:2017-12-21 09:46
智能音箱未必会成为入口,但语音交互一定是下一个流量入口。
这个生态链非常复杂,需要有资源有积累才能玩转。迅雷创始人程浩最近撰文《创业公司做智能音箱是九死一生》,他分享了这样一个观点:在智能音箱语音交互这件事上,巨头有着创业公司无可比拟的竞争优势,数据、内容和生态体系。
尤其是当巨头选择“开放”策略之后。比如百度DuerOS、阿里AliGenie、腾讯的叮当和小微,都已经选择了做开放平台。他们为硬件厂商提供对话式人工智能系统、Skills以及内容的一站式服务。巨头们都想做智能硬件AI时代的“安卓系统”。最惹眼的当属百度,它刚刚宣布,百度将永久免费开放语音识别、语音合成和语音唤醒三大语音技术接口。
乐观者认为,语音交互目前是一个封闭生态,而一人之力难成大事,对一家单打独斗的企业也是一样。行业起步,场景逐渐放开,个性化需求呈现指数级增长,要想打破瓶颈和天花板,势必要开放,要合作。同时,竞争本就残酷,所有的语音公司没有那一项技术是“你们能做我们做不了”的,尤其是在技术、资源、资本兼具的巨头面前,大家无非都是跟时间赛跑。
让BAT的优势资产“梅开二度”
巨头下重注在语音赛道,目标是切入未来更大的人工智能(AI)市场,因为硬件背后的语音平台有机会成为智能物联网时代的“操作系统”,连接全新的产业生态。
人工智能时代靠的不只是技术,海量数据、暴力计算和大数据的丰满度是重要的竞争优势,也正是互联网巨头的优势领域。百度高举“免费”大旗,用意很明显,一是走技术营销路线,二是希望获得足够的运用场景来积累更丰富的语音语料数据。
对所有国内语音企业来说,百度是绕不过去的。“All In AI”的百度希望借人工智能这个“新风口”,重回中国互联网行业之巅,因为在PC和移动互联网时代百度借由搜索主业所沉淀的大量的产品、技术、数据等等资产,都将有可能在AI时代被充分地激活。
语音交互是2017百度世界大会上一条隐形的技术主线。除了李彦宏当天演示的手机百度TTS(从文本到语音)功能,足够抢镜的智能音箱Raven H,以及“幕后”百度对话式人工智能操作系统DuerOS2.0,百度度秘事业部总经理景鲲还在大会上宣布了DuerOS2.0正式对业界开放。
DuerOS是百度度秘事业部研发的对话式人工智能操作系统,搭载DuerOS的设备可让用户以自然语言对话的交互方式,实现影音娱乐、信息查询、生活服务、出行路况等10大类目的100多项功能等操作。同时,借助云端大脑,DuerOS可以不断学习进化,越变越“聪明”。
景鲲是DuerOS语音交互平台的总负责人,直接向百度集团总裁兼COO陆奇汇报。2017年2月,百度对外公布了两个重要消息:一是度秘团队升级为度秘事业部,一是收购渡鸦团队。两条业务线都是向陆奇汇报工作。有媒体解读,百度“这种软硬融合的战略选择是极其正确的”,作为国内对人工智能投入力度最大的公司,百度终于在人工智能这个大方向上走在了对的路。
DuerOS开放平台,从2017年7月百度AI开发者大会发布,到2.0版本亮相之间的四个多月时间里,加速迭代,合作伙伴已新增130余家、落地硬件解决方案超过20个、每月新增5款以上搭载DuerOS的设备。目前,DuerOS的对话能力已经应用到手机、电视、音箱等智能家居、智能穿戴和车载场景中。
外界说Raven H“漂亮得不像百度的产品”,李彦宏却认为它很“百度”,意在更加聪明的对话能力“背后有百度这么多年做搜索的积累,无论是人工智能的技术,还是相关的数据,以及背后的知识图谱”。依托百度在语音语义技术上的优势,DuerOS的野心是打造成人工智能时代的“安卓系统”。
C端和智能硬件一直是百度短板,过去几年,百度在移动互联网领域频频布局失误,已经错失了移动互联网的红利期。借由包括语音交互在内的AI技术,并且通过输出技术性产品和服务,占领更多的终端,是百度现在迫切想做到的。
腾讯在语音赛道上的布局,则延续了它内部孵化创新所特有的“赛马”机制。依据公开信息,腾讯目前有4个部分在做语音交互的平台性产品,腾讯叮当、腾讯云小微(腾讯在2017年6月份正式推出的智能语音开放平台)、腾讯AI Lab和腾讯的微信开放平台。
最近崭露头角的,是在2017年11月腾讯全球伙伴大会上正式亮相的腾讯叮当。这是一款智能助手系统,提供高质、完整、开放的人工智能服务,帮助终端硬件设备快速获得听觉和视觉的交互能力。叮当专注于探索场景化的人机智能交互,腾讯在其中整合了信息服务、内容服务、生活服务和各种硬件的连接服务。与百度阿里不同的是,腾讯的优势是在音乐、阅读、视频、新闻、动漫、体育等泛娱乐领域拥有大量优质内容和应用资源,这些恰恰是通过语音这种工具完成信息搜索、服务达成所必不可少的。
在AI时代,阿里给语音企业的印象是,“又有技术,又能做C端,还能突破。”最近没参加乌镇饭局的马云,在上海某个地铁站,用阿里iDST(Institute of Data Science & Technologies,数据科学与技术研究院)的语音技术,动动嘴就买了张地铁票,还没说唤醒词。
阿里iDST语音团队负责人鄢志杰对外介绍,地铁智能购票系统所用的多模态交互就是阿里巴巴iDST团队对下一代人机交互可能性的一种尝试——把计算机视觉技术融合到语音识别技术中,攻克嘈杂环境下的远讲降噪问题,这样一来,你只要走近机器,不需要唤醒,它就会自动与你发生交互。
对生态的渴求
对于思必驰这样的专注于智能设备领域的语音技术服务商,像科大讯飞这样的老牌智能语音公司一下子气氛紧张起来,可预想的直接影响是,像BAT、京东、小米这些可能的、曾经的客户,转身伙伴秒变对手,似乎 AI一来,语音行业的洗牌在即。
“现在只要是干语音这行的,不管你是做市场的还是干技术的,不管你什么职位,大公司闻讯就会过来挖人,不设岗位、不设工资,一切面聊。”有语音行业的人士透露,语音领域的人才在国内一下子变得奇货可居。
把对话链条的所有环节聚合到一起再开放给开发者,这样的语音对话全链路平台,现在国内主要有三股势力在做:一是互联网公司如百度DuerOS,一是专注于语音领域的老牌技术公司科大讯飞的讯飞开放平台,一是思必驰今年9月推出的DUI 开放平台。
DUI平并不是思必驰的首款开放平台。2013年9月,思必驰发布了国内首款对话平台“思必驰对话工场”,开放底层的ASR、TTS、NLU等SDK接口,把语音对话能力搭建在平台上,赋能给移动互联网的开发者。
但那时,移动互联网产业还在中场,整个物联网大产业还在非常早的早期,不像现有爆品、产品的这般普及度,整个产业链的成熟度、人工智能的成熟度、落地速度和质量也远不及今天。那时的思必驰,面向的是相对弱的需求,是“拿着锤子找钉子”。
2015年,基于对软硬件的探索,思必驰推出AIOS对话操作系统,赋能更多智能硬件合作伙伴。伴随着物联网端的速度更新加快,产品更加个性化,需求更加差异化,今年思必驰推出DUI开放平台。
同时,语音交互领域的竞争环境也在迅速变化,携技术、资源、资本优势的互联网大公司相继涌入这个领域,语音技术服务商所倚重的面向B端企业的项目制产品模式和盈利模式,在与互联网公司的平台制规模化较量时,优劣对比越来越明显。
开放和平台,已是竞争大势所趋。尚在创业阶段的公司做平台,“为与不为”变得相当重要。
思必驰CEO高始兴表示,思必驰通过DUI平台开放核心语音技术,愿意将DUI全链路的每个环节都开放,数据接口开放,硬件模组也开放,在这方面,思必驰已与海知智能、声智科技建立了合作关系,比如在AI技能、文本分析、硬件模组接口等更加细分的技术层面,开发者既可以使用思必驰的语音技术,也可以用行业伙伴的技术。
在思必驰首席科学家俞凯看来,目前国内提供语音交互技能的公司大体上有两种不同的思路。一是提供封闭的解决方案,所有的东西都包揽优化;二是像思必驰DUI这样的思路,开放,形成生态圈,有博弈的过程,但是多赢博弈的过程,在生态圈上大家互相体谅。
思必驰对AI领域的关注,也开始从聚焦人工智能物联网上下游产业链,到关注传统行业,例如扩展到了教育、医疗等。在元禾资本、富士康、清华控股等LP的支持下,思必驰于2016年牵头成立了驰星创投,截止目前,已成功投资、孵化了七家企业。
原阿里iDST语音团队负责人初敏博士加入思必驰,也是今年下半年语音交互领域的一大新闻。由初敏牵头,思必驰北京研发院正式成立,并将在一年之内组建从基础研究到应用落地的研发团队,为思必驰拓展新的业务路线,比如面向企业端的“智能服务”。
在通往平台的路上,竞争已来。
文/贺文