手写识别闯Win7
- 来源:互联网周刊 smarty:if $article.tag?>
- 关键字: smarty:/if?>
- 发布时间:2009-12-28 14:50
“真是令人难以置信的结果,它的确让我在这最后一个工作日感觉不错。”在比尔·盖茨退休当天,微软亚洲研究院手写识别团队收到了一封盖茨的回复邮件。盖茨在邮件中所说事情指的正是微软亚洲研究院用户界面组(现软件分析组)与Windows产品部门共同研发的东亚文字手写识别技术,当时,东亚文字手写识别项目已经在微软亚洲研究院所在的希格玛大厦完成了后期的优化。
2007年3月,东亚文字手写识别技术刚立项一年,比尔-盖茨也曾在给微软亚洲研究院的邮件中表示出了极大的兴趣和期待。在项目组每个成员的邮箱里,至今仍保存着比尔一盖茨的这两封邮件。
一方面,这两封邮件见证了东亚手写识别技术从研发到植入Windows7的本地化进程。可以想象,对技术无比痴迷的盖茨体会到的欣慰和兴奋,微软亚洲研究院又一次对微软核心产品贡献了重要智慧。同时,Windows7也实现了一项革命性的跨越——东亚语言用户用电脑做手写笔记的应用变得更加简单实用。
文字游戏
世界上恐怕任何一款文字游戏,都没有微软亚洲研究院手写识别团队遇到的更具挑战。
“对于输入来讲,我们不能要求用户怎么样,而是要尽量满足用户。不同用户写字的习惯,包括笔顺和字形,都有很大变化。因此我们要把这些因素包含进去,尽量应付这些情况。”微软亚洲研究院软件分析组韩石对本刊记者说。
微软亚洲研究院软件分析组及其前身用户界面组的一个重要研究分支,是基于数据的统计学习和模式识别技术的应用性研究,通俗一点讲就是如何教机器去从大量的真实数据中学会分类。转化到windows7里的手写文字识别本质上就是一个分类的问题,也就是让计算机知道用户输入的是什么字。而与以拉丁语系为代表的西方语言相比,东亚语言文字的字符集特别大,笔划变化多端,相似的字又特别多,这些对识别率和识别速度来讲都是挑战。
据韩石介绍,对于单字的手写识别来讲,最难就是写得比较草的时候。立项之初,在行业内对潦草数据集的识别率已经达到95%左右,单字识别当时主要应用的技术是利用字形的空间信息,从字局部和整体的特性来挖掘字与字之间的区分度。空间关系的好处是它可以对字有一个整体的概念,但它忽略掉了每一笔的先后顺序和走向,不容易捕捉到一些细节的局部。而如果把笔画的时序信息应用进去的话,对于“味”和“昧”这样的字就可以更准确区分了。
通过整整两年的时间进入Windows7。手写识别团队把东亚语言文字的识别率推向一个更高的水平,以简体中文为例,对潦草数据集的识别率达到97%,甚至更高。
提高了识别率,剩下的是把它做快、做小。Windows7中的文字手写识别有整句输入、纠错和联想的功能,通过联系上下文,基于大量材料从已有的文字组合中统计出的语言模型,在这些功能中起着重要作用。对于东亚语言来讲,它的字符集是超大的,这是一个非常大的挑战。以中文为例,完整的汉字字符集有两万多个字,最常用的一级和二级字符集也有近七千字。由这些字组成的词和短语。其模型空间之大可想而知。
速度快、体积小是windows7的重要目标之一。在这么大的一个模型里面,怎么样去选择最有效的那一部分来提高识别率以带给用户更好的体验呢?据韩石介绍,此前的语言模型已经相当优化,然而每一种语言的模型大小也相当可观。经过手写识别团队的进一步优化,在模型体积减半的同时,整句输入模式的识别率也有所提高。
以产品标准做研发
“几乎所有我们的实验、代码都是以产品的标准来做的,这样就使整个技术转化的过程非常平滑。这个其实出于几点考虑,首先要想把一项技术写成很好的代码。对这个技术要非常了解,同时优化代码,做得很快很小,所以我们来做这个事情效率最高。唯一的要求就是我们这边的人要兼备做研究和开发的能力。”让韩石和同事们感到欣慰的是在交付测试的时候,没有发现一个bug,这个结果从做基础研究的角度来讲,基本上就是奇迹了。而这样的奇迹每天都在这里发生。
这又是一次经典的团队合作,东亚文字手写识别在Windows7中的质的飞跃,位于微软总部雷蒙德的Windows产品部门手写识别团队同样功不可没。而此间发生在研究院与产品部门之间的紧密合作,在这里经常发生。
2008年7月,用户界面组(现软件分析组)的手写识别团队成功地将基于字根和隐马尔可夫模型(HMM)的东亚文字手写识别技术转化到了Windows产品部门。其中,在针对东亚文字的HMM拓扑设计、最优化字根集选取、HMM区分度训练、基于状态参数共享的模型压缩、以及数据驱动的解码加速等方面有重要突破和技术创新。微软亚洲研究院基于HMM的东亚文字手写识别(代号为Dolphin)技术显著降低了原有技术的识别错误率,使四种东亚语言——简体中文、繁体中文、日文和韩文的识别错误率均有显著下降。在此之前,用于东亚文字整句手写识别的语言模型优化已经在windows7的M3阶段完成了技术转化。更好地整合了优化的语言模型后的最终产品中,简体中文、繁体中文和日文在整句输入模式下的文字识别错误率也有相应改善。
书写未来
就手写识别技术来说,东亚文字并不是终点,同时,电脑也只是微软在手机和电视中“三屏”之一。
就中文来说,一个新的挑战就是现在的年轻人的使用习惯,这些活跃于网络的主流人群往往使用中英文混打,有时甚至还夹杂一些表情甚至火星文。“我们之前的做法是不同的语言用不同的模型来做,所以从局部技术角度看这是一个挑战。从产品或者技术应用来看,对于文字领域,我们还是要把更多的语言做进去或者做得更好。”韩石说,包括最近几年学术界比较关心的阿拉伯语言和其他语种的识别,各个语言都有它的特点和应用人群。微软作为软件行业的领导者,有责任和义务把各种语言做好,“毕竟我们的目标是要服务以及方便整个人类生活,让更多的人受益”。
既要考虑人们的使用体验,又要适应在不同环境中的习惯。对于一些键盘输入不太方便的内容,在微软看来都是令人兴奋的挑战。“比如说像我们做过的一些数学公式和化学公式,现在化学公式还不是解决非常好的一个问题,尤其是一些复杂的有机结构式,像药物说明书经常见到的那样。还有就是像有一些设计草图,临时的灵感,如果希望把它快速地记下来,还是用笔比较方便,当然你要把它数字化以便于管理或者进一步处理的话,还是需要识别的技术。”
在移动领域,手写识别的实现就不只是依赖技术本身了,而是怎么样把已有的识别技术更好地应用起来,包括硬件革新以及更便捷的人际交互方式设计等多方面的支持。可以肯定的是,手写识别技术不仅限于文字,也不限于Windows7,在不远的将来就会推广到更多空间。
信息技术的迅速发展带来了很多新的挑战和机遇。随着包括手写识别在内的多项技术到最终产品的成功转化,微软亚洲研究院原来的用户界面组也战略性地选择了更新、更具挑战的研究方向,成为了现在的软件分析(softwareAnalytics)组。软件分析组目前的研究重点包括。软件质量与性能的高级分析、信息可视化以及大规模数据处理。值得期待的是微软亚洲研究院更多的研究成果转化到产品里,再带到人们的生活当中。
……
2007年3月,东亚文字手写识别技术刚立项一年,比尔-盖茨也曾在给微软亚洲研究院的邮件中表示出了极大的兴趣和期待。在项目组每个成员的邮箱里,至今仍保存着比尔一盖茨的这两封邮件。
一方面,这两封邮件见证了东亚手写识别技术从研发到植入Windows7的本地化进程。可以想象,对技术无比痴迷的盖茨体会到的欣慰和兴奋,微软亚洲研究院又一次对微软核心产品贡献了重要智慧。同时,Windows7也实现了一项革命性的跨越——东亚语言用户用电脑做手写笔记的应用变得更加简单实用。
文字游戏
世界上恐怕任何一款文字游戏,都没有微软亚洲研究院手写识别团队遇到的更具挑战。
“对于输入来讲,我们不能要求用户怎么样,而是要尽量满足用户。不同用户写字的习惯,包括笔顺和字形,都有很大变化。因此我们要把这些因素包含进去,尽量应付这些情况。”微软亚洲研究院软件分析组韩石对本刊记者说。
微软亚洲研究院软件分析组及其前身用户界面组的一个重要研究分支,是基于数据的统计学习和模式识别技术的应用性研究,通俗一点讲就是如何教机器去从大量的真实数据中学会分类。转化到windows7里的手写文字识别本质上就是一个分类的问题,也就是让计算机知道用户输入的是什么字。而与以拉丁语系为代表的西方语言相比,东亚语言文字的字符集特别大,笔划变化多端,相似的字又特别多,这些对识别率和识别速度来讲都是挑战。
据韩石介绍,对于单字的手写识别来讲,最难就是写得比较草的时候。立项之初,在行业内对潦草数据集的识别率已经达到95%左右,单字识别当时主要应用的技术是利用字形的空间信息,从字局部和整体的特性来挖掘字与字之间的区分度。空间关系的好处是它可以对字有一个整体的概念,但它忽略掉了每一笔的先后顺序和走向,不容易捕捉到一些细节的局部。而如果把笔画的时序信息应用进去的话,对于“味”和“昧”这样的字就可以更准确区分了。
通过整整两年的时间进入Windows7。手写识别团队把东亚语言文字的识别率推向一个更高的水平,以简体中文为例,对潦草数据集的识别率达到97%,甚至更高。
提高了识别率,剩下的是把它做快、做小。Windows7中的文字手写识别有整句输入、纠错和联想的功能,通过联系上下文,基于大量材料从已有的文字组合中统计出的语言模型,在这些功能中起着重要作用。对于东亚语言来讲,它的字符集是超大的,这是一个非常大的挑战。以中文为例,完整的汉字字符集有两万多个字,最常用的一级和二级字符集也有近七千字。由这些字组成的词和短语。其模型空间之大可想而知。
速度快、体积小是windows7的重要目标之一。在这么大的一个模型里面,怎么样去选择最有效的那一部分来提高识别率以带给用户更好的体验呢?据韩石介绍,此前的语言模型已经相当优化,然而每一种语言的模型大小也相当可观。经过手写识别团队的进一步优化,在模型体积减半的同时,整句输入模式的识别率也有所提高。
以产品标准做研发
“几乎所有我们的实验、代码都是以产品的标准来做的,这样就使整个技术转化的过程非常平滑。这个其实出于几点考虑,首先要想把一项技术写成很好的代码。对这个技术要非常了解,同时优化代码,做得很快很小,所以我们来做这个事情效率最高。唯一的要求就是我们这边的人要兼备做研究和开发的能力。”让韩石和同事们感到欣慰的是在交付测试的时候,没有发现一个bug,这个结果从做基础研究的角度来讲,基本上就是奇迹了。而这样的奇迹每天都在这里发生。
这又是一次经典的团队合作,东亚文字手写识别在Windows7中的质的飞跃,位于微软总部雷蒙德的Windows产品部门手写识别团队同样功不可没。而此间发生在研究院与产品部门之间的紧密合作,在这里经常发生。
2008年7月,用户界面组(现软件分析组)的手写识别团队成功地将基于字根和隐马尔可夫模型(HMM)的东亚文字手写识别技术转化到了Windows产品部门。其中,在针对东亚文字的HMM拓扑设计、最优化字根集选取、HMM区分度训练、基于状态参数共享的模型压缩、以及数据驱动的解码加速等方面有重要突破和技术创新。微软亚洲研究院基于HMM的东亚文字手写识别(代号为Dolphin)技术显著降低了原有技术的识别错误率,使四种东亚语言——简体中文、繁体中文、日文和韩文的识别错误率均有显著下降。在此之前,用于东亚文字整句手写识别的语言模型优化已经在windows7的M3阶段完成了技术转化。更好地整合了优化的语言模型后的最终产品中,简体中文、繁体中文和日文在整句输入模式下的文字识别错误率也有相应改善。
书写未来
就手写识别技术来说,东亚文字并不是终点,同时,电脑也只是微软在手机和电视中“三屏”之一。
就中文来说,一个新的挑战就是现在的年轻人的使用习惯,这些活跃于网络的主流人群往往使用中英文混打,有时甚至还夹杂一些表情甚至火星文。“我们之前的做法是不同的语言用不同的模型来做,所以从局部技术角度看这是一个挑战。从产品或者技术应用来看,对于文字领域,我们还是要把更多的语言做进去或者做得更好。”韩石说,包括最近几年学术界比较关心的阿拉伯语言和其他语种的识别,各个语言都有它的特点和应用人群。微软作为软件行业的领导者,有责任和义务把各种语言做好,“毕竟我们的目标是要服务以及方便整个人类生活,让更多的人受益”。
既要考虑人们的使用体验,又要适应在不同环境中的习惯。对于一些键盘输入不太方便的内容,在微软看来都是令人兴奋的挑战。“比如说像我们做过的一些数学公式和化学公式,现在化学公式还不是解决非常好的一个问题,尤其是一些复杂的有机结构式,像药物说明书经常见到的那样。还有就是像有一些设计草图,临时的灵感,如果希望把它快速地记下来,还是用笔比较方便,当然你要把它数字化以便于管理或者进一步处理的话,还是需要识别的技术。”
在移动领域,手写识别的实现就不只是依赖技术本身了,而是怎么样把已有的识别技术更好地应用起来,包括硬件革新以及更便捷的人际交互方式设计等多方面的支持。可以肯定的是,手写识别技术不仅限于文字,也不限于Windows7,在不远的将来就会推广到更多空间。
信息技术的迅速发展带来了很多新的挑战和机遇。随着包括手写识别在内的多项技术到最终产品的成功转化,微软亚洲研究院原来的用户界面组也战略性地选择了更新、更具挑战的研究方向,成为了现在的软件分析(softwareAnalytics)组。软件分析组目前的研究重点包括。软件质量与性能的高级分析、信息可视化以及大规模数据处理。值得期待的是微软亚洲研究院更多的研究成果转化到产品里,再带到人们的生活当中。
关注读览天下微信,
100万篇深度好文,
等你来看……