从广度优化抓取策略研究搜索引擎蜘蛛爬行准则

发布时间：2022-07-03 13:42 所属栏目：21 来源：互联网

导读：搜索引擎处理大量的网页。一方面，为了节省带宽、计算和存储资源，另一方面，为了满足用户的搜索需求，使用有限的资源来捕获有价值的网页，因此搜索引擎在处理大量网页时会有一定的策略。本文简要介绍了网络爬行的主要策略，如广度优先、深度遍历策略、非重

　　搜索引擎处理大量的网页。一方面，为了节省带宽、计算和存储资源，另一方面，为了满足用户的搜索需求，使用有限的资源来捕获有价值的网页，因此搜索引擎在处理大量网页时会有一定的策略。本文简要介绍了网络爬行的主要策略，如广度优先、深度遍历策略、非重复爬行策略、大站点优先策略、不完全pagerank策略、OCIP策略、协同爬行策略。

　　深度优先，深度优先的遍历策略；广度优先的原因是重要的网页往往接近种子网站；万维网的深度没有我们预期的那么深，而是出乎意料的深（中国万维网只有17个直径和长度，即在任意两个网页之间可以访问17次）；多履带协同抓取深度优先的不利结果：容易使履带陷入死区，不应重复抓取；不应抓住机会；

　　协同爬行策略（爬行加速策略）可以通过增加爬行器的数量来提高整体的爬行速度，但工作负载需要分解为不同的网络爬行器，以确保分工清晰，防止多个爬行器在同一页面上爬行，浪费资源。

　　通过分解网络主机的IP地址，让爬虫只抓取中小型网站的一个网页段，出于经济原因，通常在一台服务器上提供不同的网络服务，使多个域名对应一个IP段；而新浪、搜狐等大型网站通常使用负载均衡的IP gro。向上技术，同一域名对应多个。IP地址。因此，这种方法不方便。通过分解网页的域名，爬虫只能对网页的域名部分进行爬虫，并为不同的爬虫分配不同的域名。

（编辑：ASP站长网）