完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
什么是爬虫?
爬虫的本质就是将互联网网页(数据)下载下来的程序。 爬虫通常为PC端爬虫、以及移动端爬虫(接口数据窃取 抓包 wap站),当然我们更多的是使用PC端的爬虫。 如下图可以看出爬虫相对于人浏览网页的不同,可以在脑袋里有个简单的概念。 通过对互联网无数个url数据的下载,url之间可能又有关联,于是形成了犹如蜘蛛网状的结构,而爬虫就守在这张大网之上,因此我们通常又将爬虫成为蜘蛛。 |
|
|
|
|
|
|
|
最简单的python爬虫
urllib库 基于python3.5 # encoding:UTF-8import urllib.requestdef download_data(): url = "http://www.baidu.com" response = urllib.request.urlopen(url) print(response.getcode()) if response.getcode() == 200: print(response.read())download_data() 运行结果如下 可以看出爬虫下载都是网页源码。 |
|
|
|
爬虫基本架构
由上图可以看出爬虫一般由爬虫调度器、URL管理器、网页下载器、网页解析器、数据存储这几个模块组成。 爬虫调度器主要是对url管理器、网页下载器网页解析器进行管理。 URL管理器主要通过初始url及网页解析器获得的url进行存储管理,并为调度器提供接口,为网页下载器提供下载入口。 网页下载器主要功能就是下载该url下的网页数据(源码) 网页解析器一方面解析出我们需要的价值数据,一方面又将网页下载器下载数据中的url存储到url管理器中。 数据存储是将网页解析器的解析的价值数据存储到内存、数据库、文件等。 |
|
|
|
你正在撰写答案
如果你是对答案或其他答案精选点评或询问,请使用“评论”功能。
“0元购”智元灵犀X1机器人,软硬件全套图纸和代码全公开!资料免费下载!
3688 浏览 2 评论
1399 浏览 0 评论
【实操文档】在智能硬件的大模型语音交互流程中接入RAG知识库
6741 浏览 1 评论
防止AI大模型被黑客病毒入侵控制(原创)聆思大模型AI开发套件评测4
1092 浏览 0 评论
不可错过!人工神经网络算法、PID算法、Python人工智能学习等资料包分享(附源代码)
3413 浏览 0 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-12-23 23:46 , Processed in 0.644280 second(s), Total 78, Slave 62 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号