使用crawlspider爬取aqi历史数据请求多

收藏

使用crawlspider爬取aqi空气质量中心的历史数据 , 例如爬取佛山 的历史数据,提取规则ule(LinkExtractor(allow=r'daydata\.php\?city='),follow=False,callback='parse_da'),

历史数据只有50个,爬取却有90多个

回答

MrSun回答

原因:

由于提取规则的问题导致2中链接都被提取到

 

解决方法:

修改提取规则

修改后的提取链接:

    Rule(LinkExtractor(allow=r'daydata\.php\?city=.+?&month=\d{4}-\d+'), follow=False, callback='parse_day')

建议:

    在使用crawler spider的时候构建提取规则的时候的提取规则一定要严谨,如果不严谨会导致出现类似的 提取链接多、提取链接缺失等问题,遇到类似的问题先考虑提取规则的问题

 

(0)

提交成功