微软搜图志

  微软亚洲研究院(MSRA)创新进行时系列专栏之十四

  “微软”二字已经不单单代表着一个软件公司,它更像是一个技术和人才交相辉映的时代的象征。从2009年1月5日起,《互联网周刊》将连续推出针对微软亚洲研究院的系列报道,带领读者领略微软的技术创新,寻找微软的企业文化,挖掘微软亚洲研究院背后的故事。

  微软搜图志

  用另一种思路做图片搜索,让计算机“识别”图片的内容,微软亚洲研究院为必应(Bing)搜索又嵌上了一块创新的亮点。

  本刊记者 马荟

  “这是第一个真正实现大规模的基于图片内容的商业搜索。因为基于图片内容的搜索从研究领域来讲,已经研究了很多年,但是一直都没能真正把它运用到这么大规模的互联网的图片上。”微软亚洲研究院视觉计算组主管研究员孙剑,在采访的最后才给记者总结了“显示类似图片”给微软必应图片搜索带来的革命性改变。

  搜索,一直都不是微软的强项。关键词搜索成就了谷歌,搜索经济一时间成了互联网最有说服力的盈利金矿。不过,在读图时代,微软让谷歌的自信心开始松动。正如达尔文在《物种起源》中那段关于“丛林法则”的经典论述,同样适用于IT生态:“存活下来的物种,不是那些最强壮的种群,也不是那些智力最高的种群,而是那些对变化做出最积极反应的物种。”

  微软亚洲研究院的图片搜索技术,选择回归计算机运算的本质,从另外一种思路出发改善用户的体验。

  按图寻道

  在微软亚洲研究院,创新唯一不变的就是变化。也正是技术所幻化出的科技魔力,给成千上万用户带来使用习惯的改变。

  在博士期间,孙剑在模式识别与人工智能研究所,接触到了与计算机视觉相似的研究。2003年7月,孙剑加入微软亚洲研究院,目前主要研究交互式计算视觉和网络计算视觉两个方向。“计算机视觉研究其实就是告诉计算机怎么识别东西。”

  现在市场上的图片搜索引擎多少有些让用户无所适从。搜索图片时碰到的问题常常是,要么很难描述这个图片,要么是关键词本身的简单或模糊,导致搜索结果杂乱无章。

  做图片搜索,有基于计算机视觉和基于纯文本的两种方式。有这样一项规律:在搜索过程中,图像是需要一定时间来浏览的,基于文本的搜索引擎,用户越早离开,说明结果越精准,而基于图像的正好相反,用户越早离开,说明什么也没有搜到。

  “一图抵千言”这句话也只是过于保守的陈述。但是,如果有一种对结果进行微调的方法会怎样呢?

  “基于内容的图片搜索性能不是很好,当有很多数据的时候做不快;基于文本的搜索,不适合输入长的信息,并且往往含有与图片无关的有歧义和闲杂的信息。微软将两者结合,先输如关键字,返回文本的搜索结果,然后用图像的相似度,重新排序,这样就更容易找到想要的搜索结果。”孙剑对记者说。

  用一种并非基于文字查询的方法对返回的图片进行重新排序,微软亚洲研究院的“显示类似图片”工具恰恰能够让使用者做到这一点:从一定的搜索结果范围中选定一个图片(这些结果是根据文字搜索初步确定的),然后再次提交请求,只需点击一下,就可以根据与选定图片的视觉相似度对结果中的图片进行重新排序。

  看图说“化”

  “在微软亚洲研究院做研究常常是拍拍脑袋的事情,不过,大部分自己拍脑袋做的都没有转成产品。”在孙剑看来,“研究本身就是这样的”。孙剑对记者表示,做研究,需要站在做产品的角度来思考,思考一个技术对于一个成熟的产品来说,哪些功能是很重要的,哪些是不需要的。

  2007年7月,微软亚洲研究院视觉计算组研究员闻芳就动了通过“图片找图片”的念头。“当时我们没想到要做到网上,只是把这个技术应用在本机搜索中,用来查找家庭照片。后来无意中,发现网上基于文本搜索的文本本身有很多语义上的模糊性,于是把显示相似图片技术在网上试了试,发现效果出奇的好。”

  2008年初,闻芳和同事做出了研究的原型,演示给当时的图片搜索产品组的同事看。“当时我们一拍即合,这正是他们想要的功能。接着,我们就开始讨论怎么把技术真正的产品化。”在克服了包括计算复杂度、与现有产品设计的整合等等一系列问题后,2008年10月,“显示相似图片”技术成功转化到了微软的图片搜索服务中。

  2006年9月,微软公司宣布在中国市场正式推出Live搜索服务中文版(测试版)。2007年7月,微软Live Search团队又推出了三项Live图片搜索新功能,包括允许用户查找脸部图片、肖像图片和黑白图片。“显示相似图片”技术为图片搜索开辟出一个全新的方法,并把微软图片搜索又推向了一个新的阶段。

  技术搜图

  如何界定有效视觉相似度?如何有效地提取视觉特征,用于全网络范围的图片搜索引擎?这两个问题成了“显示相似图片”查询方法面临的两个主要挑战。

  孙剑和闻芳所在的研究组对用户选定的图片根据特征确定了五大类别:一般物体、简单背景下的物体、风景图片、肖像,和人物,对于不同类型的图片使用不同视觉特征相似度组合。这种不同类相似度组合形成结果,比用固定特征组合的效果好。计算机通过“寻找”视觉特征(如面部、纹理、边缘、颜色、空间分布等),把这些特征分类后存在数据库中,并用这些特征计算相似度,按照相似度大小依次排列。

  “这里的关键在于,设法了解用户究竟在查找什么,或者说用户的意图。例如,如果该系统能够了解用户打算寻找面部图片,而这些图片被归类为人像,那么就会调用面部识别算法,就会比一般的纹理分类算法更加有效。”孙剑说。

  对用户而言,这种类型的搜索引擎有很多好处。用户可以简单而快捷地对初步搜索结果加以进一步完善和过滤,使用图片查询而不是依靠文字。这样,就可以更灵活和更准确地对图片进行搜索,提供更符合用户期望的搜索结果集。 “图片相似度在研究领域也是个开放的问题,还需要很多基础的研究去改进,只有把这些东西做好了,功能才能完善。”孙剑说,技术本身是不存在门槛的,只有不断进步,才能保持领先。
……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: