三问生物识别：技术的能与不能

来源:瞭望东方周刊
关键字:生物识别
发布时间:2017-12-18 10:14

　　识别更精准、反应更迅速、安全性能更高、用户体验更好，是生物识别的发展目标

　　2017年，对于腾讯优图实验室总监黄飞跃来说，是个颇提振士气的年份。

　　这一年，腾讯优图在国际权威人脸识别数据库LFW的无限制条件下人脸验证测试中创下了99.80%准确率的新纪录，还在海量人脸识别数据库MegaFace百万级别人脸识别测试中，以83.290%识别率的成绩拔得头筹。

　　“其实，我们参加各种比赛完全是按照产品落地的节奏进行的，目的更多是验证我们技术进步的成果，竞赛只要能够反映技术优劣、促进技术发展，就是其意义所在。”黄飞跃告诉《瞭望东方周刊》。

　　而猎豹移动旗下公司猎户星空，也获得被业界誉为“人脸识别年度世界杯”的2017年微软百万名人识别子命题有限制类第一名。

　　“因为测不同数量的人，获得的效果和成绩是不一样的。像这次微软的比赛基数是50万人，我们的准确率达到78%左右，这对实际应用已经很有帮助了。”猎户星空首席科学家闵可锐告诉《瞭望东方周刊》。

　　在生物识别产业技术创新战略联盟秘书长孙哲南看来，中国的生物识别技术和产品可以说完全实现了国产化，“但我们也不能因此忽视了生物识别技术面临的一些问题和挑战。”

　　数据比算法更重要

　　生物识别技术，简单来说，就是机器通过比对数据，判断吻合程度，从而完成识别任务。

　　“这个机器的大脑是一个采用多层人工神经网络实现的函数，它是深度学习的核心。”中科院计算技术研究所研究员山世光告诉《瞭望东方周刊》，与传统算法建模方式不同，生物识别近年的发展，主要就是靠深度学习技术的完善。

　　“怎么让它学习呢？我们把大量具有不同特征的照片给它，黑人、白人、老人、小孩，白天、黑夜，训练集越丰富，机器学出来的这个函数就越好。”山世光说。

　　北京旷视科技有限公司副总裁谢忆楠，有个更直接的比喻。

　　“机器有点像小孩一样。今天给他看一眼风车，他知道这是风车，第二天换了另一个不一样的风车，他可能就认不出了。但你给他看了一百次风车后，他就学会了如何识别风车。”他告诉《瞭望东方周刊》。

　　因此，数据量越多，同种数据的类型越丰富，机器学习的能力就会越强。谢忆楠透露，给机器训练的数据不能是原始的图片，应该是已经标注好所有信息、相当于拆解开来的图片。

　　“机器无法像人那样理解图片，只有把图片相关信息标注好，机器才能读懂，才能学习。这方面我们有先发优势，现在大概有一个PB量级标注好的图片数据集，每天调用量可达到3000万次。”谢忆楠说。

　　而在语音识别和虹膜识别领域，已存在这样的数据优势，尤其是一些大公司。

　　“像科大讯飞这样的公司，在这个行业里积累了十几年，数据库规模肯定更大。在一些细分领域，比如说方言，它的优势就非常明显。互联网公司的优势在于，它更善于理解用户、寻找使用场景、打磨产品，它能把一个产品变得更好用。”闵可锐说。

　　上海聚虹光电科技有限公司总经理宫雅卓则告诉《瞭望东方周刊》，虹膜采集需要通过专门的设备，通过虹膜项目，并不易得。

　　“任何一个具体的深度学习平台，用通用的学习方法都做不了，必须针对具体问题进行特殊的模型定制和优化才可以，所以最后凸显的并不是那些算法强的公司，而是拥有相应数据库的公司。”宫雅卓说。

　　因此，在他看来，像Facebook、腾讯优图这样占有大量社交数据的公司，更容易在人脸识别领域取得成功。

　　准确率为何变化不定

　　黄飞跃告诉本刊记者，正是基于腾讯微信、QQ等多个应用庞大的用户群，腾讯优图开发的算法和技术具备了快速验证、迭代调优的能力。

　　腾讯优图在国际权威人脸识别数据库LFW创下的高准确率和识别率就是一个很好的例证。

　　然而，这样高的识别率，却无法在实际应用中达到。有业内人士向本刊记者透露，在实际应用中人脸识别准确率约在70%，摘个眼镜、拨一下刘海就有可能识别不出来。

　　“比赛是在特定数据集下才达到的精度，而实际场景复杂得多。”闵可锐坦言。

　　现实中首先面临的困难是场景复杂。闵可锐介绍说，比赛中的图片是固定的，但是现实中，影响人脸识别的还有姿态、表情、光照以及遮挡等因素，复杂的应用场景导致人脸数据发生复杂的变化，因此机器识别起来也更困难。

　　“场景对于语音识别也很重要。比方说声音比较小如何优化变大，或是杂音很多如何降噪，等等，它是一个多方面的考验，包括运算能力、数据量、算法，等等，都不能掉链子，否则识别率就会有很大的下降。”闵可锐说。

　　谢忆楠还注意到，不同场景对技术有不同的要求，需要满足的额外条件也不一样，“没有通用型的解决方案，能人脸解锁的东西未必能给公安解决问题，反之亦然。”

　　第二个难题在于规模。

　　闵可锐解释说，人脸识别比赛中数据库比较稳定，可能在几千、几万、几十万张人脸图片库里识别得比较好，但量级升到几千万张，几亿张，之前的模型可能就反应太慢，难度也会大很多。

　　“识别快慢也很重要。比如人脸解锁开门，就应该非常迅速；并且它还要求不需要特定配合，只要站在边上就能识别，这是额外条件。”谢忆楠告诉本刊记者，考量人脸识别技术能否实用的关键指标，他认为是精准度、反应速度和是否满足额外条件。

　　而对于精准度更高的虹膜识别技术，现实中的难点则是太麻烦。

　　“虹膜识别还是需要人去配合，一般而言是近距离的，并且需要人取下眼镜，因此总不够易用。”宫雅卓告诉本刊记者，他们也在研发0.6米到1米的远距离虹膜识别，无需对着镜头，也不需取下眼镜。

　　安全性到底有多高

　　不过，外界更为关注，讨论更多的其实是生物识别技术的安全性问题。

　　“实际上，生物识别技术的安全问题主要包括四个方面：前端的假体攻击、模块窃取、传输过程中的黑客入侵以及后端数据库的信息泄露。”孙哲南告诉《瞭望东方周刊》。

　　所谓假体攻击，指的是利用照片、视频、模型等材料，伪装成真人骗取识别认证。这给生物识别技术提出的问题是：如何进行活体认证。

　　腾讯优图提出的方案是结合唇语识别来确认活体；支付宝则要求用户刷脸时需要进行眨眼、左右摇头等随机行为。

　　而苹果公司推出的iPhone X，则通过添加专门的结构光、近红外线综合传感器镜头，实现图像3D增强还原效果，以排除照片、视频的假体攻击。

　　“如今的活体检测技术还可通过前端传感器的改进，识别出皮肤的活性、检测心跳等，打印照片或塑料的3D模型根本无法通过识别。”山世光告诉本刊记者。

　　至于模板窃取，业内主要通过变换生物特征模板，或将模板和其他因素绑定识别的方式，加以规避。

　　“模板一旦窃取，系统会自动识别出丢失的模板，直接撤销被盗模板并对同一个生物特征重新发放新的模板。”北京中科虹霸科技有限公司CEO马力告诉《瞭望东方周刊》。

　　他说，如今的生物识别技术会使用密码学方法，通过对数据和编码的加密，使得每一次运算不可逆，“假如窃取的不是图片而是数据编码，那么从编码数据反推回图片的计算量，可能需要一台超级计算机计算一千年，是根本不可能的。”

　　相比之下，黑客入侵和数据库泄露等安全隐患近年来日渐突出。以印度为例，该国自2009年开始借助虹膜等技术建立全国性的生物身份识别系统，目前已完成12亿人口的数据采集。

　　但近日，印度执法部门却发现，超过210家政府网站在线曝光了该国公民身份识别系统的详细信息，包括公民姓名、地址、身份识别号码、指纹与虹膜扫描等敏感数据。

　　“这种安全隐患目前还没有办法完全消除。”孙哲南说。

　　他直言，不光是信息泄露，目前所有的防伪、防丢失措施都还没有成熟到能完全解决生物识别技术的安全问题，“这有赖于整体计算机和互联网技术的进一步发展。”

　　《瞭望东方周刊》记者陈振华王元元特约撰稿梁宝荧/北京报道

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容