搜索引擎工作原理之网页抓取

本文作者:
5年前 (2012-05-21) 沙发

小兽接着上一篇《搜索引擎的定义与基本工作原理》来讲搜索引擎工作原理之网页抓取。搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件,根据一定规则扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一个网站。为保证采集的资料最新,它还会回访已抓取过的网页。

搜索引擎工作原理之网页抓取

搜索引擎工作原理

网页抓取的优先策略

通常是尽可能的首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。

什么是重要性高的网页呢,主要由这三个方面决定的:

1、链接欢迎度
链接欢迎度主要是由反向链接的数目和质量决定的。
2、链接重要度
链接重要度它是关于一个URL字符串的函数,仅仅考察字符串本身,它主要通过一些模式,如认为包含|“。com”,“HOME”的URL重要度高,以及包含较少斜杠的URL重要度高等。
3、平均链接的深度
平均链接的深度表示在一个种子站点集合中,每个种子站点如果存在一条链路到达该网页,那么平均链接深度又是该网页的一个链接指标,因为距离种子站点越近说明被访问的机会越多。

相关文章

发表评论