搜索结果排序的背后

  每个上网的人几乎都要用到百度、谷歌等搜索引擎进行各类操作。平时我们只要输入相应的关键字,按下回车键后,就会自动显示所需的搜索结果。那么这个搜索背后隐藏着什么秘密,搜索引擎又是怎么完成搜索的呢?

  搜索引擎 它是这样工作的

  搜索引擎在用户输入关键字后会立刻将完整的搜索结果显示在用户屏幕,这个看似简单的搜索展示,其实背后是搜索引擎服务器在高效运作的结果。

  首先服务器会通过网络爬虫对互联网上的各种资源,包括论坛帖子、网站页面、软件资源等进行自动收集,接着服务器会对收集到的各种数据建立索引并进行分类。比如对于一个网页资料,我们把它看做一个文档,网页的内容由一个个单词组成。为了方便用户在输入关键词时快速给出文档结果,搜索引擎就要建立一个“单词对应文档”的存储结构。这样用户在搜索框输入特定的关键字,搜索引擎的服务器就会在后台自动从存储的数据中进行检索,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

  认识搜索排序背后的指标

  前段时间百度搜索引发的风波,主要就是因为百度对搜索结果所做的排序,这个排序结果,可以通过对一些参数的控制而调整。

  如上所述,我们知道了搜索引擎工作原理,不过这只是简单对搜索过程进行描述。在搜索结果列表中,这些搜索结果是依据什么显示出来?搜索结果又是怎样进行排序?我们又该怎么对搜索结果的有效性进行判断?

  1.搜索相关性

  当我们在搜索框中输入关键字进行搜索时,搜索引擎会将页面内容中包含了该关键词的网页都作为搜索结果排列出来。服务器在经过复杂的算法排序后,将这些结果按照与搜索关键词的相关度高低依次排列,这就是我们在搜索页面看到的搜索结果。不过现在随着搜索越来越商业化,搜索结果排序还会受到包含商业化的竞价排名、商业推广或者广告的干扰,比如现在百度搜索,很多热门关键字排序,排在首位的大多是标示“推广”字样的广告页面。

  2.算法相关

  搜索引擎在收到用户输入的关键字并检索出符合的搜索结果,然后会按一定的算法进行排序。那么什么是算法,它又是怎么决定网站排序的?

  算法是指搜索引擎对检索结果通过一些指标进行考核(决定网站收录和排序),从而提高用户体验的一种综合评判系统。比如现在很多网站都充斥着各种广告页面,而且有很多广告下载链接。对于这些低质量网页的收录和排序,百度推出了“石榴算法”,它的核心是针对广告多的低质量页面进行打击。百度网络爬虫在收录到网页后,如果发现页面含有大量妨碍用户正常浏览的恶劣广告的页面,比如弹出大量低质弹窗广告、混淆页面主体内容的垃圾广告等,那么在后期检索中如果这类页面需要被展示,搜索引擎会自动降低其优先级,其在搜索结果中的排序将大幅下降,从而提高用户搜索体验。

  当然搜索引擎使用的是多种综合、复杂的算法,比如还有PageRank算法、Hilltop算法、DirectHit算法等。

  3.排名的权重

  对于个人站长或者博客用户来说,我们经常会遇到这样的情况:自己发布的同一篇文章,在进行百度搜索时,却经常发现其他大型网站转载我们文章的排序要比自己网站更靠前。为什么自己原创文章排序会比大型网站更靠后?其中的原因就是权重在作怪。

  网站的权重是搜索引擎对一个网站比较权威性的评估评价。权重高的网站比低的网站在搜索结果中排名更好,比如同一篇文章,小站和新浪都收录,那么在搜索结果中,新浪页面大多排在小站的前面,原因就是由于新浪的权重要比小站大得多。权重大小可以通过www.aizhan.com查询,打开上述网站后输入需要查询的网址,点击“百度排名”即可看到网站的百度权重,权重越大在搜索结果中排名就越靠前。

  这样做 搜索效果可以更好

  通过上面的描述我们知道,搜索结果中的排序主要是由关键字相关性、算法和权重决定的。因此要获得更好的搜索效果,在平时的搜索中就需要从这些方面进行优化。

  比如在平时进行搜索时,为了获得自己想要的搜索结果,需要输入更精确的关键字,假设你想要查找下届奥运会的信息,输入“里约热内卢奥运会”就比输入“奥运会”获得更精确的结果。不过由于百度竞价的人为干涉排名,在搜索结果中还需要对排序在前的搜索结果进行甄别,排序在前的很多是推广排名,并非我们需要的搜索结果。

  对于个人网站,为了让用户更容易搜索到网站的文章,我们则需要针对算法进行网站优化。比如尽量减少页面广告、增加原创文章等,这样在用户搜索时才能获得更好的排名。同样权重指数的提升也要根据搜索引擎的要求进行更多的优化,对于百度,百度自身组件如百度经验、百度贴吧、知道等拥有天然的高权重,因此想让自己发布的文章更容易被网友搜索到,到百度自身组件上去发布是个获得高权重的简单方法。

  文|技术宅

关注读览天下微信, 100万篇深度好文, 等你来看……