chrome中xpath能提百度贴吧帖子链接，使用代码提取不到是什么原因？

xpath 数据提取百度贴吧百度

Feb 1, 2018

//a[@class="j_th_tit"]/@href 使用这个规则chrome插件中提取贴吧链接可以提取到，但是当我们使用这个规则放到我们的python代码中发现提取是空

html_dom = etree.HTML(html)
link_list =html_dom.xpath('//a[@class="j_th_tit"]/@href')

回答

Bravian回答

原因：

xpath 插件对获取到的源码做了部分优化, 初始的源码中贴吧的链接标签类属性中后面有空格<u>class="j_th_tit "</u>
xpath插件把类属性中的空格给优化了所以导致我们的使用的xpath规则在代码中提取不到任何东西

遇到类似的xpath在chrom中能提取到正确数据而在程序中不能正常提取则可以考虑是这种情况导致的，
思路：启动xpath之前检查源码，启动xpath之后检查，对比两次的源码查看是否是这个问题导致

(0)

相似问题

python中selenium使用chrome无头浏览器执行JavaScript（js）代码

xpath中的 position 方法怎么理解？

scrapy请求数据，xpath无法正常解析

安装vue-cli报错：chromedriver@2.34.0~install: Failed to exec install script

css中样式被干掉,一般是什么原因呢？

os.path.dirname() 方法有什么作用？

Cookie百度案例

Python中GC的垃圾回收算法是什么？

通过a链接的href属性传参为什么在IE浏览器中传不了，但是谷歌中可以？