以图识图

  • 来源:信息方略
  • 关键字:百度魔图,微信
  • 发布时间:2013-09-23 16:26

  历经14个版本,百度魔图终于在2013年年中推出新版本后迅速吸引了大批用户。从苹果应用商店中国区连续两周的免费总榜排名第一,单项功能单日使用量过亿次,微信朋友圈日分享量过千万,到一个月之内用户量破亿,都彰显着这个现象级产品的成功。此外,在2013年年中的时候,它的成功还带动另外一个同公司下的App百度魔拍杀进苹果榜单,两个应用分列冠亚军宝座。

  其实,这一切,都要归功于百度魔图3.0.0版本中新加入的一个功能——PK大咖,这个功能适时地抓住了用户群心理,再加上“适合的运气”、节目合作以及微博造势推广、微信朋友圈用户自传播,让百度魔图着实火了一把。实际上,PK大咖是一个很简单的功能,它根据用户提供的照片,用云端接收后,将其临时保存在云端缓存里,随后百度魔图会提取人像的特征值,与明星照片进行比对,从中找出最相似的一个,并把结果告诉手机并进行展示。

  另外,百度借势推出的另一个新功能——“明星大咖配”,利用了中国民间俗语“夫妻脸”的原理,旨在帮助用户找出与之长相最相匹配的明星。用户上传或拍一张照片后,百度魔图会迅速压缩用户图片,并存入服务器缓存区开始扫描。借助百度领先的人脸识别算法,百度魔图可以精确提取人脸81个关键点特征,得到用户脸部每一项特征数据。随后百度魔图会通过特征识别用户的性别,并在明星库中对人脸数据一一检索比对,得到一系列不同相似度的明星。最后利用科学的分析比对算法,找出与用户匹配度最高的异性明星,并输出各种有趣的结果。

  这两个新功能背后的支撑技术都是早已存在的图像识别技术里面的人脸识别,借助信息技术,结合用户心理,给出一些好玩的评语和结果。回到实用性较强的部分,2012年年底,百度多媒体部副总监余凯在其微博(@余凯_西二旗民工)中称,百度多媒体部2012年的最后一个产品是“百度识图”,用户可通过它在全网搜索具有相似人脸的图片,并且声称这是世界上第一个基于图像的全网人脸搜索。在百度识图当中,用户可以选择将需要辨识的图片通过本地上传、粘贴图片地址或者直接拖拽到搜索框,得到的结果会有近景特写和完整图片等不同尺寸。很多试过此功能的网友却认为,目前该功能的实际用处不大,搜索的匹配准确率也很低,而且笔者在与大连理工大学博士唐晓亮、纽约州立大学布法罗分校计算机系博士李笑一的沟通中也发现,百度识图对于已在图库中的图片可以很好地进行识别,比如明星照片、著名风景胜地等,但是对于用户新上传的图片尤其是特征不是非常明显的图片,会有意想不到的“结果”,说句玩笑话就是你的种属没准也发生了变化。

  先不说百度识图是不是世界上第一个基于图像的去全网人脸搜索,这种应用背后的图像识别技术确实是值得关注。它丰富的潜在应用,比如无水印高清图片的搜索,车牌识别,查询图片原始信息等等,催生了这些“以图识图”的软件。其实之前,Google的图片搜索已经具备了该功能,但并未把该功能单独出来,只能通过网页搜索进入图片,再选择类型里的脸部(Face)就能获得类似搜索结果。

  识图从读懂图像结构开始

  图像识别在使用中,经常会遇到这样的难题,识图受到图像中噪音的影响,造成图片的误读。比如图像中的人脸戴着墨镜或者口罩,或者摄像头捕捉到的画面倾斜导致截图中文字或者车牌号码变形,这些情况都会对识图结果造成影响。试用过百度魔图的人就会知道,如果你上传的照片眼睛不在看镜头或者是有其他干扰,识图结果的评语就会非常毒舌,相信被与如花相提并论过的网友也不在少数。

  针对这种问题,微软亚洲研究院的研究员利用一系列高效凸优化算法解决计算机视觉领域所面临的的难题,最终的结果也非常理想。通过应用这种数学思想,微软在图像识别领域取得了很大的突破,使得戴口罩或者墨镜的人脸都可以被PC读取和识别,并且可以纠正扭曲或者变形的文字。

  传统的二维图像识别技术更多地依赖图像特征点来工作,它首先通过统计学的方式来获取图像中最有代表性的点,之后在遇到新的图像时会尝试在其中寻找这些特征点,并将寻找到的点与原来统计得来的特征点进行对比。

  在图片质量比较出色且没有扭曲的情况下这种技术往往能工作得很好。但现实情况是,在拍摄图片时,由于光线、所处的位置等诸多原因,拍摄者经常会无法获得合格的图像,这也就大大限制了这种图像识别技术的发展。

  当然,业内专家也一直在致力于解决这些问题,比如高维的数学模型和优化工具的尝试。

  简单地理解,高维的数学模型采用矩阵的模式,可以帮助人们以整体的概念来看待图像中的物体,而不像传统技术那样只获取局部特征点,这更像是寻求图像中物体的整体对称性和规则性。例如,通常的楼房窗户都是平直的矩形,桌子总是四四方方拥有4条腿等。借助这些规则,即便图片只能提供有限的信息,PC也能够更容易地识别出图片中的物体。在高维数学模型中,输入每一个点的数据都可以被用来预测某种规则性,因此这种高维的图像识别技术可以利用图片中几乎每个像素点来获取图像中物体的整体规则结构,这意味着往往只需图片的一小部分即可完成图像中物体的矫正和识别。例如,在传统图像识别技术中,100×100的图像区域往往提供不了多少特征点数据,而在高维的图像识别技术中,这意味着将有近10000个像素点都可以用来获取图像的规则结构信息。

  识图从人的角度出发

  所谓图像识别,实际上就是将人类所具有的图像再认“功能”移植入计算机,让计算机代劳对图像进行处理、分析和理解。人的识别能力是很强的,图像距离的改变或图像在感觉器官上作用位置的改变,都会造成图像在视网膜上的大小和形状的改变,即使在这种情况下,人类仍然可以认出他们过去知觉过的图像,甚至不受通道的限制。

  这是由于借助规则性和规律性识别周围的环境和景物是人类的基本技能,实际上一个人从出生开始就在学习各种各样的规则。而高维图像识别使得计算机具备了与人类相同的图像识别方式。当我们看到照片中楼房的窗户因为拍摄视角的问题而变得倾斜时,并不会认为窗户就真的是倾斜的,我们甚至知道窗户本来应该是方正的,同时我们还能分辨出挡在窗户前的树杈并不是窗户的一部分。类似地,通过建立高维图像识别的物体规律,微软研究院的研究员们已经能够让PC实现类似的功能,它能够帮助我们把倾斜的楼宇校正,或者擦去楼宇前方的树枝。

  这种高维图像识别技术能够解决以往我们根本无法解决的一些图像识别问题,在逐步完善后,它将会彻底改变我们识别和操作图片的方式。高维图像识别技术在识别图像中的物体之前,用户要告诉计算机正在识别的规则物体的位置。而下一步要做的就是要让计算机能够更聪明地发现,图像中哪里存在规则性、哪里没有规则性,以及针对图像的不同位置使用不同的规则进行修复等。这种技术另外的一个努力发展方向就是提高运算效率,比如最终能够实现在智能手机等终端上实时运行。

  图像识别与智慧交通

  如果上面所谈的主要是针对个人用户的趣味性较强的内容的话,下面要说的就是跟整个城市息息相关的问题——智慧交通。

  近几年,很多人都在谈大数据,从数据量上来看,非结构化的数据是结构化数据的5倍以上,所以,每一种非结构化数据处理技术在大数据时代都非常重要,现在谈的图像识别也不例外。

  交通管理数据有几个特点。第一个数据量大,交通出行涉及到每一个市民,每天都会产生大量的数据,数据都是TB级别以上的。第二,处理速度要求快,时效性要求强,需要实时处理,一般要在秒级给出相应的分析结果,这个速度要求也是大数据处理技术和传统挖掘的一些最大的区别,类型比较繁多,包括视频、图片、二维图表等各种各样的数据。第四就是价值复杂,由于数据量的迅速发展,使数据本身的价值密度降低,以交通监控视频为例,连续24小时的监控视频,可能仅有2秒钟有用。从管理的对象来看,可以说人、车、路每一个方面都有大数据;从管理顺序上,从车辆的购置,业务的办理、使用、维护、保养、审验到最后的报废,都会产生巨大的数据。

  利用图像识别技术结合其他非结构性数据处理方法,执法部门就可以在价值密度偏低的数据中筛选匹配出有价值的信息,迅速定位肇事车辆,及时发现被盗车辆,这样一些惨祸可能就不会发生。

  梁欢

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: