网络爬虫的爬行策略-电子发烧友网

网络爬虫的爬行策略

1、PartialPageRank策略

PartialPageRank算法借鉴了PageRank算法的思想：对于已经下载的网页，连同待抓取URL队列中的URL，形成网页集合，计算每个页面的PageRank值，计算完之后，将待抓取URL队列中的URL按照PageRank值的大小排列，并按照该顺序抓取页面。

如果每次抓取一个页面，就重新计算PageRank值，一种折中方案是：每抓取K个页面后，重新计算一次PageRank值。但是这种情况还会有一个问题：对于已经下载下来的页面中分析出的链接，也就是我们之前提到的未知网页那一部分，暂时是没有PageRank值的。为了解决这个问题，会给这些页面一个临时的PageRank值：将这个网页所有入链传递进来的PageRank值进行汇总，这样就形成了该未知页面的PageRank值，从而参与排序。

2、宽度优先遍历策略

宽度优先遍历策略的基本思路是，将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。

3、大站优先策略

对于待抓取URL队列中的所有网页，根据所属的网站进行分类。对于待下载页面数多的网站，优先下载。这个策略也因此叫做大站优先策略。

4、反向链接数策略

反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此，很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度，从而决定不同网页的抓取先后顺序。

在真实的网络环境中，由于广告链接、作弊链接的存在，反向链接数不能完全等他我那个也的重要程度。因此，搜索引擎往往考虑一些可靠的反向链接数。

5、OPIC策略策略

该算法实际上也是对页面进行一个重要性打分。在算法开始前，给所有页面一个相同的初始现金（cash）。当下载了某个页面P之后，将P的现金分摊给所有从P中分析出的链接，并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。

6、深度优先遍历策略

深度优先遍历策略是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

网络爬虫

网络爬虫

+关注

关注
1

文章
52

浏览量
8652
爬虫

爬虫

+关注

关注
0

文章
82

浏览量
6869

搜索历史

网络爬虫的爬行策略

网络爬虫的爬行策略

评论

IP地址数据信息和爬虫拦截的关联

海外HTTP安全挑战与应对策略

全球视野下的海外爬虫IP：趋势、机遇与风险

海外爬虫IP的合法边界：合规性探讨与实践

如何利用海外爬虫IP进行数据抓取

详细解读爬虫多开代理IP的用途，以及如何配置！

高压放大器在柔性爬行机器人驱动性能研究中的应用

网络爬虫,Python和数据分析

用pycharm进行python爬虫的步骤

深度神经网络(DNN)架构解析与优化策略

数据采集方法有哪些?工具有哪些?

电机控制系统的神经网络优化策略

基于DOE的管道爬行机器人轻量化研究

全球新闻网封锁OpenAI和谷歌AI爬虫

如何解决Python爬虫中文乱码问题？Python爬虫中文乱码的解决方法