使用crawlspider爬取aqi历史数据请求多

crawlspider Rule Scrapy数据提取 Scrapy框架 Scrapy请求 aqi

Feb 19, 2018

使用crawlspider爬取aqi空气质量中心的历史数据，例如爬取佛山的历史数据，提取规则ule(LinkExtractor(allow=r'daydata\.php\?city='),follow=False,callback='parse_da'),

历史数据只有50个，爬取却有90多个

回答

MrSun回答

原因：

由于提取规则的问题导致2中链接都被提取到

解决方法：

修改提取规则

修改后的提取链接：

Rule(LinkExtractor(allow=r'daydata\.php\?city=.+?&month=\d{4}-\d+'), follow=False, callback='parse_day')

建议：

在使用crawler spider的时候构建提取规则的时候的提取规则一定要严谨，如果不严谨会导致出现类似的提取链接多、提取链接缺失等问题，遇到类似的问题先考虑提取规则的问题

(0)

相似问题

crawler spider中如何处理starturl中的url返回的response

spider爬取图片后重命名不能创建新目录

使用scrapy genspider name domain 方式创建spider有哪些注意点

scrapy请求数据，xpath无法正常解析

scrapy中间件与itempipline组件使用问题？

IDE中找不到sun.misc.BASE64Encoder jar包

scrapy中item使用'.'点号的方式赋值出现错误

使用bcrypt 加密报错

Idea导入scala工程之后报错