使用scrapy genspider name domain 方式创建spider有哪些注意点

收藏
Scrapy
24
Feb 1, 2018

如题:使用scrapy genspider name domain 方式创建spider有哪些注意点

回答

Bravian回答

1. scrapy genspider domain 创建spider的时候后面domain一定给正确的域名格式: baidu.com 而不是https://www.baidu.com/  genspider命令 会根据爬虫模板来创建spider,如果不正确使用,模板创建出来的spider出现问题如下图

start_urls 中的url问题  需要自己验证url是否可用例如<http://www.itcast.cn/channel/teacher.shtml>用浏览器可以正常访问,<http://www.itcast.cn/channel/teacher.shtml/>  如果后面加上一个/以后发现不能正常访问,平常我们去访问https://www.baidu.com  https://www.baidu.com/ 大部分网站在url末尾的路径符号/有没有都可以正常访问,但是**有些网站url的匹配规则比较严格加上/以后就不能访问,例如上面的url例子**

(0)

提交成功