探索前沿,低调耕耘

  • 来源:大学生
  • 关键字:
  • 发布时间:2017-01-16 13:50

  北语计算语言学有一群大牛教师,他们的研究前沿、有趣。记者分别采访了研究语言教学、研究和应用的几位代表教授。

  于东副教授——让计算机“听懂”语言

  主攻语言信息处理的于东老师研究语义计算,即让计算机“听懂”、并且理解人说的话。

  于老师介绍,语义学历经了三代研究。第一代是做生物分类体系般的语词典,通过条目分类囊括所有的词语。第二代是制作知识图谱,如网友自发编辑的百度、维基等百科,每一个词条形成一个小数据库。第三代则将词义抽象表示出来,再通过计算机分析词与词之间千丝万缕的关系。比如“鸡蛋”,可让计算机通过50个数字表示,表面看50个数字毫无关联,但一旦所有的食物都由50个数字表示出来后,计算机就能发现“鸡蛋”和“母鸡”间的联系,并能将它们的关系类比为人类母亲和孩子的关系。

  提取个人中文简历中的信息,也是于老师重点负责的项目之一。对于有百度百科词条的人,他们的信息比较完整,普通人的信息则散落在互联网的各个角落,需要好好寻找。简历中,人们往往会写祖籍、出生地、年龄等信息,于东和学生们将这些信息提取后建模,再在更大的互联网文本中,找与这个人有关的

  用计算机解决语言应信息,比如曾经待过的地方、做过的职位、人物关系用问题,即计算机理等等。之后逐层推导,绘制出一份社交图谱——以一解语言的句法结构和个人为中心,找出与之相关的人及其职位,构成人物语意结构,是当前大关系网络。这个项目2013年启动,仍在进行中。热的人工智能的一个用计算机解决语言应用问题,即让计算机理解方向。语言的句法结构和语意结构,是当前大热的人工智能的一个方向。饿了吃饭,脏了洗澡,这是人的常识,但计算机没有这个常识,如何让计算机获取、表示,甚至运算这种常识性知识,仍是研究的一个难点。2015年,于老师所在的大数据研究所团队加入了国家“863”计划项目“面向基础教育的知识能力智能测评与类人答题验证系统”,2016年再次申请到国家社科重点项目资助,目标就是以语法、语义结构分析为核心技术,帮助人工智能参加高考,并在高考科目中达到一定水平。

  链接:在知识图谱领域,清华大学和中国科学院都在做相关研究,前者注重在知识图谱基础上的知识推理,而后者关注如何从原始文本中抽取知识图谱。北语计算语言学更多是在积累资源,从文本中挖掘知识,并着手清华和中科院都不怎么关注的常识领域。

  荀恩东教授——写手漂亮的汉字

  信科学院大数据与语言教学研究所所长荀恩东教授的研究,主要包括两个部分。一是用计算机帮助汉语学习。在北语这个拥有不同肤色学生的“小联合国”,很多留学生写汉字如同画画,而且没有笔顺概念。荀教授和同学们研发了帮助留学生写好汉字的手机APP——“易汉字”,以国家规定的笔画笔顺为标准,指导学生写出标准的汉字。这款软件针对的不仅仅是外国人,没机会“练笔”的中国成年人同样是目标对象。

  如今,人们提笔忘字的现象越来越严重,为让人们写得一手好字,荀教授还请来了书法家,采集其书写汉字的过程和成型的字体,让大家在APP上跟着书法家一笔一画地临摹。此外,荀教授还将师生互动从课堂上搬到了移动终端上。课前,他将课上要讲的内容发送至手机等终端,供学生预习,课后,他收集学生练习的结果,作为研究的第一手资料。

  与于东老师一样,荀教授也关注人工智能中的常识问题。此外,他还牵头建立了BCC现代汉语语料库(http://bcc.blcu.edu.cn/),总字数约150亿字,包括报刊(20亿字)、文学(30亿字)、微博(30亿字)、科技(30亿字)、综合(10亿字)和古汉语(20亿字)等多领域语料,可供检索,服务于教学、舆情等。它是目前国内最大、被使用次数最多的语料库,不论是博士、硕士生写论文,还是老师做语言学研究,都能用到它。

  链接:北京语言大学在汉语学习的理论方法领域做得最深入,比如汉语的字、词、句、篇章的分析和处理技术,在国内可比肩清华大学、中国科学院大学、哈尔滨工业大学、和复旦大学等知名院校,也丝毫不比国外逊色。

  荀教授和同学们研发了帮助留学生写好汉字的手机APP——“易汉字”,以国家规定的笔画笔顺为标准,指导学生写出标准的汉字。

  2015年,张教授的团队在日本同学中做测试,参加测试前,日本同学发音的准确率是80%,经过一段时间的训练,准确率达到了90%。

  张劲松教授——改进洋腔洋调

  张劲松教授关注计算机辅助发音教学和实用语音学。经过调研,张教授发现计算机辅助发音的第一代产品,运用的是语音匹配技术,用打分的方式判断发音是否标准,但这对学生改进和提高发音的帮助实在有限。“学生只知道自己发音的水平,却不知道哪儿出了问题。这样的反馈,于教学而言远远不够。”

  怎样才能让学生更好地改进发音呢?

  带着这一目标,张老师把发音分成“三个环节、五个层面”,挨个儿攻克难关。五个层面指音段、声调、语调、语段和韵律。“三个环节”的第一个环节是产出环节。张老师发现,将汉语作为第二语言学习,不同国家的学生有着不同程度的“洋腔洋调”。比如日本人分不清l、r和zhi、chi、shi,送气也不足。此外,日本人讲中文时,也许每个音调都正确,但他们不明白汉语的韵律、节奏,连起来说时句子听起来十分生硬。第二个环节是知觉层面,这个层面常见的问题是在教学过程中,老师讲的东西同学能理解多少,老师不能确定,如“妈”和“马”,有的同学听起来完全一样。第三个层面是交际层面,这个层面也有一些容易产生的问题,比如,中国人与外国人聊天时,为了让对话顺利进行下去,有时会选择性忽略外国人说中文时的错误,这样一来,外国人就认为自己的错误表达是正确的,这是加深印象或巩固错误的陷阱。

  随后,张教授带领同学们有针对性地解决这些问题。在知觉环节,针对日本学生阳平上声不分的问题,团队利用物理参数合成音高区间,并划分了十个次级,“对母语是汉语者来说,听1~4级时,100%的人都表示听到的是阳平;听7~10级时,100%听到的都是上声;而听5或6级时,他们也会拿不准。”团队把中国人听1~10次级的情况告诉日本同学,并针对他们的薄弱环节进行针对性的训练。2015年,张教授的团队在日本同学中做测试,参加测试前,日本同学发音的准确率是80%,经过一段时间的训练,准确率达到了90%。

  链接:在计算机辅助发音教学领域,美国佐治亚理工学院、香港中文大学、新加坡A*STAR(Agency for Science,Technology andReseach)研究所、日本京都大学等都有相关研究。由于北语开展得比较早,目前在国内外都处于前沿地位,研究成果在领域内也极受重视。

  采写/本刊记者 尹颖尧 曹晓晨 文字整理/陈林芩

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: