如题:使用scrapy genspider name domain 方式创建spider有哪些注意点
回答
Bravian回答
1. scrapy genspider domain 创建spider的时候后面domain一定给正确的域名格式: baidu.com 而不是https://www.baidu.com/ genspider命令 会根据爬虫模板来创建spider,如果不正确使用,模板创建出来的spider出现问题如下图
start_urls 中的url问题 需要自己验证url是否可用例如<http://www.itcast.cn/channel/teacher.shtml>用浏览器可以正常访问,<http://www.itcast.cn/channel/teacher.shtml/> 如果后面加上一个/以后发现不能正常访问,平常我们去访问https://www.baidu.com https://www.baidu.com/ 大部分网站在url末尾的路径符号/有没有都可以正常访问,但是**有些网站url的匹配规则比较严格加上/以后就不能访问,例如上面的url例子**
(0)