大数据背景下语料库在英语教学与科研中的应用

摘 要:在大数据和计算机技术盛行的21世纪,传统的结构主义语言学、转换生成语言学、系统功能语言学已经不足以支撑现代英语教学与科学研究,语料库语言学的兴起已经成为一种必然。本文拟从语料库的定义和主要类型、语料库的建立和研究领域、以及语料库在英语教学和科研中的具体运用等方面进行探讨,希望对英语教育者在语料库的运用和建立方面有所借鉴。

关键词:语料库;语料库语言学;检索软件

21世纪的今天计算机和网络技术日新月异,所带来的变化不仅体现在随处可用的无货币交易上,也体现在英语教学和研究的方法革新上。语料库语言学作为一种介于计算机科学和语言学之间的新兴边缘学科进入英语教育者和研究者的视野;语料库也卸下神秘的面纱成为一种日益普及的教学与科研方法,以其特有的精确和迅捷席卷全球,势不可当。

一、语料库的定义和主要类型

语料库(Corpus)一词来源于拉丁文,意为“人体”。它是指由大量经过科学抽样和计算机处理的电子文本所形成的数据库,借助计算机检索软件可从事理论或实践方面的语言学研究。英国语言学家约翰·辛克莱(John Sinclair)是公认的语料库语言学之父,著有《语料库·检索·搭配》(CorpusConcordance Collocation)一书,打破了乔姆斯基转换生成语法的统治,将实证主义结合信息技术带入语言研究当中来。20世纪80年代,因为计算机硬件的发展与普及,相关软件的开发与运用,以计算机检索为手段、 以电子文本为主要构件的计算机语料库建立起来,而语料库语言学也进入到了一个迅猛发展的全新时期。

根据不同标准,语料库可以分为多种类型:如通用语料库和专用语料库;共时语料库和历时语料库;口语语料库和书面语语料库;本族语语料库和学习者语料库;单语语料库和多语语料库以及双语平行语料库,多模态语料库等。常用语料库有BNC(British National Corpus),COCA(Corpus ofContemporary American English),ANC(American NationalCorpus),BOE(Bank of English)等。

二、语料库的建立和研究领域

要建立一个语料库首先要搞清楚建库目的,即通过建立该语料库企图解决的具体问题是什么?以及搜寻的文本对象是哪一类?附码类型是词性码还是语法码?该语料库是否具有代表性?是否有相类似的可以替代?如果已经搞清楚上述问题并且没有相似数据库的话就可以着手建库。

首先进行工具、文献和存储介质的准备。工具包括文本编辑器,如Edit Pad Pro,Ultra Edit或Edit Plus;文本格式转换软件,如Adobe,CAJ,Viewer或迅捷PDF;网络爬虫,如YahooSlurp,Googlebot,Java等;文字识别软件,如Fine Reader等。文献可以查阅一下各种语料库建立手册,如马丁·韦恩的《语料库建立实用指南》。存储介质可以是硬盘,光盘或网盘。

然后进行语料库设计,包括确定所需收集的文本类型与文类,各种语料所占比例与平衡问题以及对于文本大小的规定范围。这些都是需要根据实际需要和建库能力反复斟酌才能最终确定的,一旦确定对于语料库的价值以及使用都有决定性的作用。

最后是搜集语料的方法和渠道:可以网络下载;也可以使用CD-ROM直接读取数据;最常用的是用扫描仪扫描纸质文本,然后用文本转换软件转换为TXT纯文本文件;最原始的是手工输入原始口语语料。如果是双语平行语料库的建立,还牵扯到文本对齐的问题需要注意。

后现代语料库语言学研究的主要问题囊括:1)单词使用(single words);2)词语搭配(collocation),即“结伴关系”;3)类联接(colligation);4)语义韵(semanticprosody);5)语义倾向(semantic preference);6)短语学(phraseology)7)多词序列(multi-word units)等领域。

三、语料库在英语教学和科研中的具体运用

语料库在英语教学中有广泛的应用,能够以准确的量化指标来指导教学,有效地提高教学质量,教学效果显著。比如可以利用语料库进行不同语域内词频差异的调查,总结出各语域内的常见词汇供学习者学习;根据常见搭配来调查语义和语义韵差异,增加了同义词辨析的维度,提高了学生的交际能力;尤其可以对比本族语者和不同母语背景与层次的学习者之间的差异,调查英语“中介语”的形成规律和特点,以帮助学习者更好更快的掌握英语,规避陷阱。

尽管存在不同的声音,语料库语言学在科研中俨然已经成为新兴的研究潮流,基于语料库的研究成果硕果累累。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。语料库的作用目前大多还是通过语料检索和频率统计,帮助人们观察和把握语言事实,分析和研究语言的规律。语料库方法的发展会使这种仅起辅助作用的手段逐步变成必备的应用资源和工具。利用语料库,人们可以把指定的语法现象加以量化,并且检测和验证语言理论、规则或假设。在应用语言学领域,词典编纂和语言教学同是语料库的最大受益者。目前已有多部词典在编纂或修订过程中,不同程度地使用语料库或电子文档收集词语数据,用于收词、释义、例句、属性标注等。与传统译学研究相比,语料库翻译学的显著优势在于利用语料库技术对大规模翻译语料或双语语料的特征进行客观描写和定量分析。以这些描写和分析为基础,逐渐形成具体语言对翻译语言特征、译者风格、翻译语言搭配和语义韵等领域的研究。

纵观语言学的发展历史,每一次语言学上的重大发现都能激发语言教学与科研的不断突破。大数据的网络平台,语料库语言学的方兴未艾,各种语料库的层出不穷,这一切必然为语言的传播和发展带来新的蓬勃生机,为跨文化交流引入新的强大助力。(张薇)

关注读览天下微信, 100万篇深度好文, 等你来看……