//a[@class="j_th_tit"]/@href 使用这个规则chrome插件中提取贴吧链接可以提取到,但是当我们使用这个规则放到我们的python代码中发现提取是空
html_dom = etree.HTML(html)
link_list =html_dom.xpath('//a[@class="j_th_tit"]/@href')
回答
Bravian回答
原因:
xpath 插件对获取到的源码做了部分优化, 初始的源码中贴吧的链接标签类属性中后面有空格<u>class="j_th_tit "</u>
xpath插件把类属性中的空格给优化了所以导致我们的使用的xpath规则在代码中提取不到任何东西
解决方法:
遇到类似的xpath在chrom中能提取到正确数据而在程序中不能正常提取则可以考虑是这种情况导致的,
思路: 启动xpath之前检查源码,启动xpath之后检查,对比两次的源码查看是否是这个问题导致
(0)