中国的自然语言处理领域的人工智能公司
- 来源:互联网周刊 smarty:if $article.tag?>
- 关键字:自然语言处理,人工智能 smarty:/if?>
- 发布时间:2018-09-11 15:47
龙泉寺以前并不太出名,它坐落在北京西山凤凰岭山脚下,始建于辽朝应历初年。
寺庙山门前有两棵遒劲的翠柏拔地而起,据说已经有600多岁,走进寺内,可以看到粗壮挺拔的古银杏树,据说也已经1000多岁。
这里隐居着一批世外高人,他们发明了一个会说话的机器僧人“贤二”。
如果你问贤二:“贤二,我心情不好怎么办呢?”
贤二可能会说:“试着读一些好书吧。”
贤二是全球首个人工智能“出家人”。身高60厘米,穿着黄色僧袍,特长是诵经、对话,甚至还会唱歌,尤其难能可贵的是他还会卖萌。
贤二为什么能与人对话呢?原来,它应用了最新的人工智能自然语言处理技术。
什么是自然语言处理?
正如哥德巴赫猜想是数论皇冠上的明珠,微软创始人比尔·盖茨曾经如是说,“自然语言理解是人工智能领域皇冠上的明珠”。
比尔·盖茨所说的自然语言理解是自然语言处理的一个重要组成部分。自然语言处理的英文是Natural Language Processing,一般被简写为NLP,它实际上包括了三个方面:语音识别、自然语言理解与语音合成(有一些人把语音识别作为自然语言处理之外的技术,在本文中,我们将语音识别也包含在自然语言处理的技术范畴之内)。
霍金不会说话,但英特尔公司给他定制的电脑轮椅可以帮他说话,这背后所利用的技术就是语音合成技术。语音合成技术可以把文本信息转化为语音信息。当然了,霍金的电脑轮椅设备是没有人工智能的(也就是说语音合成并不一定是人工智能,关键还是要看机器背后的算法)。
科学家们已经可以让电脑像人那样自主说话,这个时候电脑就具有人工智能的语音合成。比如微软小冰,比如 “贤二”机器人和尚,这些会说话的机器人都具有人工智能。
前面已经说过,自然语言处理包括了三个方面:语音识别、自然语言理解与语音合成。这三方面分别解决了三个问题:听清楚别人在说什么,理解别人说的意思,根据听到的与理解到的对话内容回答别人的问题。
自然语言处理是工业界与学术界都关注的人工智能领域,这一领域的突破性发展与深度学习算法的成熟有直接的关系。加拿大多伦多大学的辛顿是深度学习的先驱,他和学生于2006年发表在《科学》上的文章提出了降维与逐层预训练的方法,这使得深度学习成为可能。2009年,微软亚洲研究院的邓力小组开始与辛顿合作,用深度学习加上隐马尔科夫链模型开发了实用的语音识别与同声翻译系统。
从学术界来说,中国大陆地区除了微软亚洲研究院,还有哪些研究机构设置了自然语言处理的实验室呢?据《互联网周刊》了解,清华大学自然语言处理与社会人文计算实验室、北京大学计算机科学技术研究所语言计算与互联网挖掘研究室、哈工大机器智能技术与自然语言处理实验室、中科院自动化研究所语音语言技术研究组、南京大学自然语言处理研究组、复旦大学自然语言处理研究组等都对自然语言处理有深入的研究。
一般来讲,自然语言处理的步骤主要分为6步:1、获取原始文本;2、对文本进行预处理; 3、分词:将文章按词组分开;4、词法分析:对名词、动词、形容词、副词、介词进行定性; 5、语法分析:分析主语、谓语、宾语、定语、状语、补语等句子元素;6、语义分析:将句子的正确含义表达出来。
自然语言处理的发展历史
20世纪的80年代,自然语言处理的语音识别方面开始取得了突破性的进展,当时以李开复为代表的人工智能科学家摒弃了符号主义学派的方法,选择用统计模型来破解语音识别的难题,将语音识别的准确率提高到了一个全新的高度。但当时这个方法离真正的实用化还是有很远的距离。因此,在当时并没有诞生出擅长对话的机器人。
于是,科学家开始发展新的自然语言处理的算法。这里面包括Word2vec、CRF、LDA,LSA、SVD等。
2010年以后,一种更加有效的人工智能算法——深度神经网络重新打造了语音识别的算法框架。在这个过程中,以科大讯飞为代表的语音识别公司开始崛起,其开发的语音识别产品已经开始进入实用化的阶段。
2013年,谷歌的语音识别系统对英语单词的识别错误率已经下降到23%左右。到了2015年,谷歌的语音识别系统再次刷新了记录,利用深度学习神经网络,它们将单词的识别错误率下降到了8%。
在这个过程中,微软也不甘落后,在2016年,微软的语音识别系统成功地将单词识别错误率下降到了6.3%。
到了今天,语音识别技术作为自然语言处理的一个侧面已经非常成熟。比如科大讯飞的语音输入法可以帮助我们在一分钟内完成400个汉字的输入。人工智能在自然语言处理上已经开始实现产业化落地,成为真正能对人们的日常生产与生活产生价值的新工具。
自然语言处理的龙头企业
科大讯飞创办于1999年,目前已经成为中国最有名的自然语言处理的龙头企业,它于2008年成为中国人工智能语音产业界的第一家上市公司。在2016年阿尔法狗打败李世石之后掀起的人工智能热潮中,科大讯飞的股价也是水涨船高,得到了资本市场的疯狂追捧。2017年,随着资本大量涌入与相关科技政策的不断加持,科大讯飞股价一度创下历史新高74.76元/股,市值突破千亿大关。
但是,看起来如此幸运的科大讯飞,在成立的最初几年里,也面临前所未有的运营压力。
科大讯飞的相关领导曾经这样描述当年的困境:“我们刚开始创业的时候是挺难的,没有钱,没有市场,也没有资源背景,所以是很难的草根创业。最开始大家租了个房,没白天没黑夜地干。最困难的时候是什么呢?快过年了,发不出工资,只能以个人的名义去借钱渡过难关。公司从成立到盈亏平衡我们用了5年的时间,这五年我们天天在投入,却不见产出。”
由此可见,作为人工智能时代的弄潮儿,科大讯飞能有今天的辉煌,离不开当年的艰苦付出。
要理解这一段历史,其实还需要理解自然语言处理背后的人工智能算法的发展过程。其实在科大讯飞的早年岁月,人工智能自然语言处理的算法并不成熟。从这个意义上来说,科大讯飞是一个早产儿。只有到了2006年,深度学习的创始人杰弗里.辛顿及合作者发表了一个里程碑的文章《一种深度置信网络的快速学习算法》以后,这一论文宣告了深度学习时代的真正来临。只有在深度学习算法的指引下,人工智能才真正进入了实用化阶段。
因此,2006年是人工智能发展的分水岭。从这个意义上来说,1999年就成立的科大讯飞出生的太早了。
科大讯飞在漫长的时间赛道上长跑,通过自主研发不断更新技术。从国际上来看,根据Research and Markets报告,在全球语音市场,谷歌、微软、苹果和科大讯飞是“四大高手”。它们在全球市场份额分别为20.7%、13.4%、12.9%和6.7%,从这个意义上来说,科大讯飞在自然语言处理上的专项能力是非常杰出的,确实已经超越了国内的其他大公司。
在终端消费者应用方面,科大讯飞的财报显示,目前讯飞输入法总用户发展至5.6亿;讯飞翻译机销售近数十万台,用户已在覆盖全球130个国家。
中国还有哪些自然语言处理的代表性公司?
自然语言处理的应用前景相当广泛,它可以进行很多工作,比如机器翻译,典型的机器翻译有百度翻译、谷歌翻译等。自然语言处理还可以用到信息检索和过滤,比如在大流量的信息中寻找关键词,在网络瞬时检查敏感文字信息。
形形色色的应用造就了形形色色的企业,《互联网周刊》整理了自然语言处理领域的代表性公司。
目前,专注于自然语言处理的公司相当多,外国大公司有谷歌、苹果等,在国内也涌现了科大讯飞、百度、云知声与思必驰等著名企业。而且这些企业都有学院派的背景,比如在苏州的思必驰的创始人俞凯本身就是英国剑桥大学的博士,后来成为上海交通大学的教授,他的研究团队里就有很多来自上海交通大学的博士生。在俞凯教授的推动下,思必驰与上海交通大学成立了Speech Lab联合语音实验室,侧重前沿语音技术的研发及转化,取得较多技术成果,例如,他们推出的VDCNN抗噪算法模型,在噪声环境语音识别的业界基准库Aurora4上,取得了7.09%的词错误率,相比于世界其他机构目前10%左右的最好结果,有一个大幅度的提高;而他们开发的PSD新型解码框架则使语音识别系统的速度累积提高20-30倍,内存下降50%以上。产学研一体化模式,为思必驰进一步拓展市场起到了极大作用。
目前的自然语言处理的公司很多都与高校结盟进行创新发展,虽然有高等学校的智力支持,但中文语言的处理比起西方语言更加难以处理。其中最令人费解的是多语义现象。
比如假设在两场篮球比赛中,中国队都打败了美国队。在中文报道中可以分别使用“中国队大胜美国队”、“中国队大败美国队”来作为标题。这其实是同一个意思,但人工智能自然语言处理则很容易把这个语义分析错。
再举一个例子,比如“今天下雨路滑,我骑车差点翻倒,幸亏我一把把把把住了”。在这句话中,出现了很多“把”字,人工智能如果不了解其中有一个“把”字是“车把”的意思,也是很难理解这句话的。
因此,在自然语言处理方面,还有许多的问题需要解决,比如训练数据的缺乏、成语俗语方言的精确处理。而在这里,其实算法还是最关键的。
但是,技术的进步是不可阻挡的滚滚潮流,中国在这方面已经做得相当不错。科大讯飞的董事长刘庆峰认为,科大迅飞在语音合成、语音识别、口语评测、语言翻译、声纹识别、人脸识别、自然语言处理等智能语音与人工智能核心技术上已经达到了国际最高水平。
将来随着自然语言处理技术越来越成熟,计算机能够更加正确理解人类的语言,相关的人工智能产品将不断落地,像“贤二和尚”这样的聊天机器人一定会变得越来越智能。
文/轩中