大数据结合自然语言分析技术 机器翻译迈向新纪元
- 来源:中国计算机报 smarty:if $article.tag?>
- 关键字:大数据,机器翻译,互联网 smarty:/if?>
- 发布时间:2015-04-28 07:30
当互联网延伸到每个人的生活中并把世界各地的人们联结在一起,当中国“一带一路”宏伟的战略构想逐渐展开,不同语言之间高效、准确的翻译显得越来越重要。然而,如何破解机器翻译质量低的难题?互联网和大数据将提供创新性的思路。
4月19日,由百度牵头并与中科院自动化所、浙江大学、哈尔滨工业大学、中科院计算所、清华大学合作的科研项目“基于大数据的互联网机器翻译核心技术及产业化”获得了中国电子学会科技进步一等奖。
当互联网延伸到每个人的生活中并把世界各地的人们联结在一起,当中国“一带一路”的伟大战略构想逐渐展开,不同语言之间高效、准确的翻译显得越来越重要,而互联网机器翻译也得到了人们越来越多的重视和关注。
未完成的“通天塔”
大家都耳熟能详“通天塔”的故事:人类本来说同一种语言,他们齐心协力修建“通天塔”,希望能通往上帝居住的天堂。上帝为了阻止这一切,就“变乱”了人类的语言,让各个部族的人们由于语言不通而无法顺畅地交流,“通天塔”的建造也半途而废。
显然,操持不同语言的人们之间如何相互沟通,是从古至今摆在人类面前的难题。随着时代的发展,世界各地的人们在文化、经济、政治、生活等方方面面交流日益频繁,语言问题的解决也日趋紧迫。机器翻译生逢其时,其实时快捷、支持多语种的翻译模式正是解决上述问题的最优方案。
然而,机器翻译也有劣势,那就是它还不够智能,做不到像译员一样理解语义,从而导致翻译的准确性和流畅性离人们的预期还有一段距离。
让所有的语言可以自由转换,实现沟通无障碍是人类几千年来的梦想。虽然距离实现这个梦想还有很长的路要走,但是希望的曙光正在照亮那座半途而废的“通天塔”——这就是互联网机器翻译。
“采用机器翻译技术自动实现语言之间翻译是人工智能的终极目标之一,而互联网大数据和自然语言分析技术正在给机器翻译注入新的活力。”百度技术副总裁王海峰博士表示,互联网海量数据和日益创新的自然语言分析技术正在推动机器翻译技术取得前所未有的突破。
创新带来核心竞争力
王海峰博士介绍,近几年来,百度取得了语料处理技术、模型处理技术和翻译方法等机器翻译核心技术的突破。这些成果使百度能够实时快捷处理每天上亿次的翻译请求,响应互联网用户多方面的翻译需求,也带动了很多相关产品和产业的发展。
“百度机器翻译团队依托互联网数据优势和自然语言处理技术优势,研发出海量、高质翻译知识获取技术,突破了传统方法在知识获取方面规模小、成本高的瓶颈。更为重要的是,百度提出了创新的基于互联网大数据的多策略翻译模型,突破了单一方法的限制,可以实时响应复杂多样的包含网络新词、科技文献、电子商务、古文、粤语等多领域、多文体的翻译需求。”王海峰博士表示。
此外,为了进一步提高翻译质量,“基于大数据的互联网机器翻译核心技术及产业化”项目在翻译消歧、译文调序、小语种翻译等机器翻译领域经典难题上提出创新的解决方案。该项目申请专利40项,已获授权17项;制定国际标准1项;取得软件著作权34项;出版专著3部;发表领域顶级论文90余篇。项目成果被专家鉴定为“在多策略融合翻译等技术方面取得突破,在翻译质量、翻译语种方向、响应时间三个指标上达到国际领先水平,并取得了显著的经济效益和巨大的社会效益”。
机器翻译产业化
清华大学计算机系党委书记、博士生导师孙茂松教授从当前备受瞩目的“一带一路”谈起,这个具有全球视野的国家级战略预计会涉及俄罗斯、印度等超过60个国家,涉及人口三四十亿,想要打造政治互信、经济融合、文化包容的利益共同体,不同的语言将造成很大障碍,而机器翻译的作用举足轻重。孙茂松认为,从国家战略角度看,机器翻译是国家的重要战略资源;从老百姓角度看,包括做生意、旅游等各个方面,机器翻译都是不可缺少的工具。它的社会效益、经济效益是不可低估的。
一种技术要真正服务社会,就应该走出科研机构,实现产业化。百度一方面与国内顶尖科研机构合作,研发拥有自主知识产权的互联网核心技术,另一方面也积极推动机器翻译的产业化,致力于让互联网机器翻译技术产生更大的价值。在百度和有关部门的共同努力下,“基于大数据的互联网机器翻译核心技术及产业化”项目的成果已应用于国家多个重要部门和百度翻译等产品中,覆盖全球超过5亿用户。通过免费开放的API,该项技术成果支持了包括华为、敦煌网等企业在内的超过7000个第三方应用,有力地提升了中国企业对外沟通和开放创新能力,带动了相关产业的繁荣与发展。
王海峰博士表示,机器翻译是百度连接人与服务战略的重要组成部分。随着人们国际交流需求的释放,企业努力向国际化转型,百度创新的机器翻译技术将有更大的用武之地,在推进产业转型升级方面有着巨大的想象空间。
业内人士表示,几十年来,作为自然语言处理领域最重要的研究方向之一,自主研发的机器翻译技术不仅在学术领域具有重要意义,更成为全球互联背景下的跨文化交流和贸易的推手、战略性信息安全资源,甚至产业化助推器。在全球化发展潮流中,机器翻译技术正在改变人们的工作和生活方式。或许三五年之后,机器翻译将更加深入地融入人们的日常生活,机器翻译的产业化也将引起新一轮的产业浪潮。
本报记者 程彦博