AI拯救冰岛语

  文/仇广宇

  你知道Sau ljóst是什么意思吗?它是冰岛语中的一个词,描述的是一天中一个特殊时刻,在这个朦胧的黎明时分,大自然的光线,刚好让人们能够看清楚羊群。

  用一个简单的词汇传达出诗意和美感,正是冰岛语的特色。但近百年来,这门精美的语言曾数次面临灭绝危机。随着全球化和高新科技的发展,只有三十几万人使用的冰岛语,在现实里受到英语等强势语言的威胁,在网络上也没有太多展示的空间。

  不过,冰岛人从未放弃为母语的生存而努力。2023年3月15日,美国人工智能研究公司Open AI发布最新的人工智能系统——GPT-4,并公布了一些正在使用GPT模型的案例。通过这些案例,人们发现,冰岛政府正在训练GPT模型学习冰岛语。目前,GPT-4已经可以有逻辑地用冰岛语回答问题,并学会书写冰岛语的诗歌了。

  这件事,让人工智能在人们眼中多了一层善良、温柔的色彩,人们发现它不只会抢走人类的饭碗,也能在恰当的利用之下,做一些保护传统文化的有益工作。

  科技背景下的语言危机

  冰岛语在十几年前就遭遇过一次灭绝危机。2012年,一份名为《欧洲语言平等》的报告显示,有超过20种语言可能在网络世界中灭绝,其中,冰岛语名列第二,仅次于马耳他语。

  这种危机是科技革命给小众语言带来的生存困境。十多年前,智能手机开始普及,之后,智能语音系统也开始伴随智能音箱等产品进驻千家万户。在使用电子产品时,人们必须使用某种语言去和机器对话。但是,冰岛人发现,当他们在自己家里使用这些设备时,其中并没有冰岛语的选项。当然,大部分冰岛人是精通多语种的,他们可以改用英语、挪威语、丹麦语,也不会有太大问题,但这种不能在自己家里使用母语的局面,实在有些荒唐。

  从那时起,冰岛人就开始思考解决冰岛语在数码世界可能消失的问题。首先站出来的是一位技术从业人员——特劳斯蒂·克里斯蒂安松。克里斯蒂安松的父亲编纂过冰岛语词典,他对本民族语言有着浓烈的情感。2012年,在谷歌公司任职的克里斯蒂安松,强烈要求把冰岛语加入谷歌语音的备选语言中。

  这个提议最初被谷歌否决了。原因是,要想在语音系统里加入冰岛语,首先需要为它建立数据库,而为越小众的语言建立数据库,所支出的成本就会越多。为了收集语言材料,公司要花费额外的人力物力,这样做对一家企业而言很不划算。为此,克里斯蒂安松只好与一位冰岛学者展开合作,通过手机收集了冰岛人朗读的数百万个句子。最终,以此为语料基础,谷歌建立了互联网上第一个完整的冰岛语语料库。如今,谷歌翻译里的冰岛语翻译选项,也是以这个数据库为基础制作的。

  之后,冰岛官员也开始行动。冰岛文化和商务部部长莉莉娅·阿弗莱德多蒂尔曾在2021年写信给迪斯尼,希望对方为网络播放的电影添加冰岛语字幕和配音,迪斯尼答应了。2022年4月,冰岛总统古德尼·约翰内松亲自带着团队访问了OpenAI,并最终促成了该公司与冰岛的合作。

  高新科技如何保护小众语言

  当人工智能学会了一门语言,就相当于这门语言有了一个永不停歇、不断进化的“传人”,那么,它灭绝的风险就大大降低了。听起来很简单,但背后有不少困难需要解决。

  由于使用人数、语言资料都比较少,因此用冰岛语书写的互联网资源更是少得可怜。其次,冰岛语虽然属于表音的语言,但有大量长度极长、中间不会空格的复合词,这些单词也容易让机器“读不懂”。

  为了训练人工智能说冰岛语,冰岛方面花费四五年时间,调集60多名专家和数家冰岛科技公司共同参与了这一过程。比如,有家公司建设了一个网站,呼吁所有会说冰岛语的人都把自己说话的录音传上去,为语料库做一份贡献。冰岛前总统维格迪丝·芬博阿多蒂尔也带头亲自在数据库里录下了她的声音。

  还有一家公司组建了40人的团队,专门训练GPT-4回答冰岛语问题。工作人员每天给GPT-4留一些冰岛语“作业”,他们负责收集答案并进行评估。若发现机器的回答不准确,再教它改进,如此循环往复。在GPT-4的上一代模型——GPT-3.5所输出的答案里,还会混有英语或其他北欧语言的单词,但是很快,GPT-4就能给出纯冰岛语的答案了,而且日益准确。

  在最新公布的2023年版《欧洲语言平等》报告中,冰岛人为本民族语言留存所做的一切努力都得到了高度赞扬,尽管冰岛语依然有着灭绝的风险,但这个趋势是在不断减小的。这也正如阿弗莱德多蒂尔所感慨的:作为一个小国,只要做足了功课,我们依然可以很好地保护我们的语言。

  摘自《中国新闻周刊》

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: