发帖

【优惠升级】华秋PCB首单最高立减100元，SMT免费贴片！！！

[问答]

如何运行imdb爬虫？

2345 爬虫

问答对人有帮助，内容完整，我也想知道答案 0 imdbcn爬虫实例　imdbcn网站结构分析　创建爬虫项目　运行imdb爬虫 0
2020-11-5 07:07:00　　评论淘帖0 邀请回答您可以邀请以下用户，快速回答问题 × 陈该类别下有 5 个回答。邀请回答 jf_71236567 该类别下有 3 个回答。邀请回答 tijing忽忽该类别下有 2 个回答。邀请回答 HELLOKITTYNEW 该类别下有 2 个回答。邀请回答 dlksmad 该类别下有 2 个回答。邀请回答 nvwwerwr 该类别下有 2 个回答。邀请回答 mu0543 该类别下有 2 个回答。邀请回答 60user28 该类别下有 2 个回答。邀请回答 To7ny 该类别下有 2 个回答。邀请回答 yhsales 该类别下有 2 个回答。邀请回答 puzhang549 该类别下有 2 个回答。邀请回答 ZONEK 该类别下有 2 个回答。邀请回答 60user149 该类别下有 1 个回答。邀请回答 jj568318653 该类别下有 1 个回答。邀请回答 60user115 该类别下有 1 个回答。邀请回答 hjfjsdgfjdsf 该类别下有 1 个回答。邀请回答 Kar98_K 该类别下有 1 个回答。邀请回答 jf_72570271 该类别下有 1 个回答。邀请回答 zzl111 该类别下有 1 个回答。邀请回答艾嘉大人该类别下有 1 个回答。邀请回答举报王宁相关推荐 • 什么是爬虫？ 1246 • 使用爬虫代理错误问题解决方案 1679 • 请问packet capture爬虫软件抓取的数据怎么做成网页链接？ 3240 • 请问哪位大神可以分享一下scrapy的架构和原理吗？ 14503 • 物联网平台上的数据导出 10675 • 程序莫名停止运行 1939 • imx6dl是单核运行还是双核运行？ 375 • 要怎么才能停止运行 2995 • LabVIEW运行以后停下的时候怎么把上次运行的数据清掉？？ 9224 • 关于VI的运行办法 3401 3个回答

答案对人有帮助，有参考价值 0 imdb.cn网站结构分析 imdb.cn是国内的一个影视资料库，应该也是作者爬取别人的数据生成的一个网站,并不是imdb的中文网站。学会爬虫后其实我们也可以做一个这样的网站。我们打开http://www.imdb.cn/NowPlaying/ 影视资料库页面，如图该资料库共有292300 条记录 14615 页通过分析可以知道页码对应的url为http://www.imdb.cn/nowplaying/{页码} 例如：第一页的url为http://www.imdb.cn/nowplaying/1 14615页的url为http://www.imdb.cn/nowplaying/14615 接下来我们分析每个电影的url，我们点开《大脑东海》它的url为http://www.imdb.cn/title/tt4912402 同样的点开其他的电影，可以发现一个规律，url的格式为http://www.imdb.cn/title/tt{多个数字} 好，现在我们已经找到两个规律，一个是所有电影资料列表的url规律，另一个是每个电影的url规律。我们现在要通过所有的列表，下载每个电影的详细信息，比如电影名称、导演、演员、上映时间、国家等信息。

2020-11-5 16:02:04 评论举报袁喆

答案对人有帮助，有参考价值 0 创建爬虫项目使用命令创建一个项目scrapy startproject imdb MACBOOK:~ yancey$ scrapy startproject imdb New Scrapy project 'imdb', using template directory '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project', created in: /Users/yancey/imdb You can start your first spider with: cd imdb scrapy genspider example example.com 使用pycharm打开我们创建的imdb项目，项目结构如下根据我们需要的信息重写items.py # -- coding: utf-8 -- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy class ImdbItem(scrapy.Item): # define the fields for your item here like: url = scrapy.Field() #url title = scrapy.Field() #影片名在spiders目录下创建一个imdbspider.py # coding:utf-8 from scrapy.spiders import CrawlSpider, Request, Rule from imdb.items import ImdbItem from scrapy.linkextractors import LinkExtractor class ImdbSpider(CrawlSpider): name = 'imdb' allowed_domains = ['www.imdb.cn'] rules = ( Rule(LinkExtractor(allow=r"/title/tt/d+$"), callback="parse_imdb", follow=True), ) def start_requests(self): pages = [] for i in range(1, 14616): url = "http://www.imdb.cn/nowplaying/" + str(i) yield Request(url=url, callback=self.parse) def parse_imdb(self, response): item = ImdbItem() item['url'] = response.url item['title'] = "".join(response.xpath('//*[@]/div[@]/h3/text()').extract()) pass 简单解释一下 name是运行spider的唯一名称 allowed_domains允许的域名前缀 rules url规则，上面allow=r”/title/tt/d+$”就是我们分析后的正则表达式，title前匹配allowed_domains，满足rules的callback=”parse_imdb”，意思是满足这个条件就执行parse_imdb方法。 start_requests 由于分析得到imdb.cn的url规律较为简单，我们可以通过遍历所有的url到初始请求url集合中，start_requests方法可以轻松做到。 parse_imdb方法，item[‘url’] = response.url得到url地址，item[‘title’]通过xpath解析得到电影的title，如《大脑东海》。

2020-11-5 16:02:17 评论举报宫昊

答案对人有帮助，有参考价值 0 运行imdb爬虫运行我们刚写的imdb爬虫，进入imdb目录，使用命令scrapy crawl imdb MACBOOK:imdb yancey$ scrapy crawl imdb /Users/yancey/imdb/imdb/spiders/imdbspider.py:3: ScrapyDeprecationWarning: Module `scrapy.spider` is deprecated, use `scrapy.spiders` instead from scrapy.spider import CrawlSpider, Request, Rule 2016-12-26 23:24:22 [scrapy] INFO: Scrapy 1.2.0 started (bot: imdb) 2016-12-26 23:24:22 [scrapy] INFO: Overridden settings: {'BOT_NAME': 'imdb', 'ROBOTSTXT_OBEY': True, 'NEWSPIDER_MODULE': 'imdb.spiders', 'SPIDER_MODULES': ['imdb.spiders']} 2016-12-26 23:24:22 [scrapy] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', 'scrapy.extensions.logstats.LogStats'] 2016-12-26 23:24:22 [scrapy] INFO: Enabled downloader middlewares: ['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware', 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware', 'scrapy.downloadermiddlewares.retry.RetryMiddleware', 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware', 'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware', 'scrapy.downloadermiddlewares.stats.DownloaderStats'] 2016-12-26 23:24:22 [scrapy] INFO: Enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 'scrapy.spidermiddlewares.referer.RefererMiddleware', 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 'scrapy.spidermiddlewares.depth.DepthMiddleware'] 2016-12-26 23:24:22 [scrapy] INFO: Enabled item pipelines: [] 2016-12-26 23:24:22 [scrapy] INFO: Spider opened 2016-12-26 23:24:22 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2016-12-26 23:24:22 [scrapy] DEBUG: Crawled (404) http://www.imdb.cn/robots.txt> (referer: None) 2016-12-26 23:24:23 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/1> (referer: None) 2016-12-26 23:24:23 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/8> (referer: None) 2016-12-26 23:24:23 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/7> (referer: None) 2016-12-26 23:24:23 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/2> (referer: None) 2016-12-26 23:24:23 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/5> (referer: None) 2016-12-26 23:24:23 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/3> (referer: None) 2016-12-26 23:24:23 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/4> (referer: None) 2016-12-26 23:24:23 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/6> (referer: None) 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/9> (referer: None) 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/10> (referer: None) 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/14> (referer: None) 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/11> (referer: None) 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/12> (referer: None) 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/15> (referer: None) 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/16> (referer: None) 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/nowplaying/13> (referer: None) ... ... 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/title/tt4912402> (referer: http://www.imdb.cn/nowplaying/1) 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/title/tt0414387> (referer: http://www.imdb.cn/nowplaying/7) 2016-12-26 23:24:24 [scrapy] DEBUG: Scraped from <200 http://www.imdb.cn/title/tt4912402> {'title': '大闹东海（2017）', 'url': 'http://www.imdb.cn/title/tt4912402'} 2016-12-26 23:24:24 [scrapy] DEBUG: Filtered duplicate request: http://www.imdb.cn/title/tt4912402> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates) 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/title/tt1865505> (referer: http://www.imdb.cn/nowplaying/8) 2016-12-26 23:24:24 [scrapy] DEBUG: Scraped from <200 http://www.imdb.cn/title/tt0414387> {'title': '傲慢与偏见（2005）', 'url': 'http://www.imdb.cn/title/tt0414387'} 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/title/tt5665040> (referer: http://www.imdb.cn/nowplaying/1) 2016-12-26 23:24:24 [scrapy] DEBUG: Crawled (200) http://www.imdb.cn/title/tt1974420> (referer: http://www.imdb.cn/nowplaying/1) 2016-12-26 23:24:24 [scrapy] DEBUG: Scraped from <200 http://www.imdb.cn/title/tt1865505> {'title': '海洋之歌（2014）', 'url': 'http://www.imdb.cn/title/tt1865505'} ... ... 另外可在spiders目录下建一个run.py可代替在终端输入命令。 # coding:utf-8 from scrapy import cmdline cmdline.execute("scrapy crawl imdb".split()) 在pycharm中运行run.py，同样可以运行imdb爬虫我个人建议使用集成开发环境进行开发，比如pycharm，pycharm可以轻松的切换python环境或者是安装依赖库。可以通过File–>Default settings–>Project interpreter 点击左下角的“+”可以搜索安装第三方库，先大致提一下，后面我会专门介绍。 github地址

2020-11-5 16:02:36 评论举报王敏

撰写答案

你正在撰写答案

如果你是对答案或其他答案精选点评或询问，请使用“评论”功能。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容图片侵权或者其他问题，请联系本站作侵删。侵权投诉

我要提问

精选推荐

“0元购”智元灵犀X1机器人，软硬件全套图纸和代码全公开！资料免费下载！

23320 浏览 2 评论
关于卷积神经网络，这些概念你厘清了么~

1540 浏览 0 评论
【实操文档】在智能硬件的大模型语音交互流程中接入RAG知识库

10032 浏览 1 评论
防止AI大模型被黑客病毒入侵控制（原创）聆思大模型AI开发套件评测4

1315 浏览 0 评论
不可错过！人工神经网络算法、PID算法、Python人工智能学习等资料包分享（附源代码）

3611 浏览 0 评论

快速回复 返回顶部 返回列表

关注微信公众号

电子发烧友网

电子发烧友论坛

社区合作: 刘勇; 联系电话：15994832713; 邮箱地址：liuyong@huaqiu.com

社区管理: elecfans短短; 微信：elecfans_666; 邮箱：users@huaqiu.com

【优惠升级】华秋PCB首单最高立减100元，SMT免费贴片！！！

返回机器人论坛

回复

关闭

站长推荐 /6

快速回复 返回顶部 返回列表

- 威廉希尔官方网站社区: 张飞电子威廉希尔官方网站社区

KaihongOS威廉希尔官方网站社区

FPGA开发者威廉希尔官方网站社区

RISC-V MCU威廉希尔官方网站社区

HarmonyOS威廉希尔官方网站社区

- OpenHarmony开源社区: OpenHarmony开源社区

- 嵌入式论坛: ARM威廉希尔官方网站论坛

STM32/STM8威廉希尔官方网站论坛

嵌入式威廉希尔官方网站论坛

单片机/MCU论坛

RISC-V威廉希尔官方网站论坛

瑞芯微Rockchip开发者社区

FPGA|CPLD|ASIC论坛

DSP论坛

- 电路图及DIY: 电路设计论坛

DIY及创意

电子元器件论坛

专家问答

- 电源威廉希尔官方网站论坛: 电源威廉希尔官方网站论坛

无线充电威廉希尔官方网站

- 综合威廉希尔官方网站与应用: 机器人论坛

USB论坛

电机控制

模拟威廉希尔官方网站

音视频威廉希尔官方网站

综合威廉希尔官方网站交流

上位机软件（C/Python/Java等）

- 无线通信论坛: WIFI威廉希尔官方网站

蓝牙威廉希尔官方网站

天线|RF射频|微波|雷达威廉希尔官方网站

- EDA设计论坛: PCB设计论坛

DigiPCBA论坛

Protel|AD|DXP论坛

PADS威廉希尔官方网站论坛

Allegro论坛

multisim论坛

proteus论坛|仿真论坛

KiCad EDA 中文论坛

DFM|可制造性设计论坛

- 测试测量论坛: LabVIEW论坛

Matlab论坛

测试测量威廉希尔官方网站

传感威廉希尔官方网站

- 招聘/交友/外包/交易/杂谈: 项目外包

供需及二手交易

工程师杂谈|交友

招聘|求职|工程师职场

- 官方社区: 发烧友官方/活动

华秋商城

华秋电路

time

recommend

hot

post

—
—
—

版
块
导
航