在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
反爬技术解决方案有哪些?常见的反爬措施分享:反爬技术Headers、IP限制、UA限制、验证码反爬虫或者模拟登陆、Ajax动态加载、cookie限制的相关介绍。
一、反爬技术Headers:
从用户的Headers进行反爬是最常见的反爬虫策略。Headers(上一讲中已经提及)是一种区分浏览器行为和机器行为中最简单的方法,还有一些网站会对Referer(上级链接)进行检测(机器行为不太可能通过链接跳转实现)从而实现爬虫。
相应的解决措施:通过审查元素或者开发者工具获取相应的Headers然后把相应的Headers传输给python的requests,这样就能很好地绕过。
二、反爬技术IP限制
一些网站会根据你的IP地址访问的频率,次数进行反爬。也就是说如果你用单一的IP地址访问频率过高,那么服务器会在短时间内禁止这个IP访问。
解决措施:构造自己的IP代理池,然后每次访问时随机选择代理(但一些IP地址不是非常稳定,需要经常检查更新)。
三、反爬技术UA限制
UA是用户访问网站时候的浏览器标识,其反爬机制与ip限制类似。
解决措施:构造自己的UA池,每次python做requests访问时随机挂上UA标识,更好地模拟浏览器行为。当然如果反爬对时间还有限制的话,可以在requests设置timeout最好是随机休眠,这样会更安全稳定,time.sleep()。
四、反爬技术验证码反爬虫或者模拟登陆
验证码:这个办法也是相当古老并且相当的有效果,如果一个爬虫要解释一个验证码中的内容,这在以前通过简单的图像识别是可以完成的,但是就现在来讲,验证码的干扰线,噪点都很多,甚至还出现了人类都难以认识的验证码(~~~~~~~)。
相应的解决措施:验证码识别的基本方法:截图,二值化、中值滤波去噪、分割、紧缩重排(让高矮统一)、字库特征匹配识别。(python的PIL库或者其他)模拟登陆(例如知乎等):用好pythonrequests中的session(下面几行代码实现了最简单的163邮箱的登陆,其实原理是类似的~~)。
import requests
s =requests.session()
login_data={"account":" ","password":" "}
res=s.post("http://mail.163.com/",login_data)
五、反爬技术Ajax动态加载
网页的不希望被爬虫拿到的数据使用Ajax动态加载,这样就为爬虫造成了绝大的麻烦,如果一个爬虫不具备js引擎,或者具备js引擎,但是没有处理js返回的方案,或者是具备了js引擎,但是没办法让站点显示启用脚本设置。基于这些情况,ajax动态加载反制爬虫还是相当有效的。
Ajax动态加载的工作原理是:从网页的url加载网页的源代码之后,会在浏览器里执行JavaScript程序。这些程序会加载出更多的内容,并把这些内容传输到网页中。这就是为什么有些网页直接爬它的URL时却没有数据的原因。
处理方法:若使用审查元素分析”请求“对应的链接(方法:右键→审查元素→Network→清空,点击”加载更多“,出现对应的GET链接寻找Type为text/html的,点击,查看get参数或者复制RequestURL),循环过程。如果“请求”之前有页面,依据上一步的网址进行分析推导第1页。以此类推,抓取抓Ajax地址的数据。对返回的json使用requests中的json进行解析,使用eval()转成字典处理(上一讲中的fiddler可以格式化输出json数据。
六、反爬技术cookie限制
一次打开网页会生成一个随机cookie,如果再次打开网页这个cookie不存在,那么再次设置,第三次打开仍然不存在,这就非常有可能是爬虫在工作了。
解决措施:在Headers挂上相应的cookie或者根据其方法进行构造(例如从中选取几个字母进行构造)。如果过于复杂,可以考虑使用selenium模块(可以完全模拟浏览器行为)。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
爬虫高端培训就业课程 python开发学习路线
爬虫高端培训就业课程 python开发学习路线分为八个阶段名主要学习爬虫基础、Python语法教学体验、课程项目体验——python高级语法、课程项目体验 -- numpy、matplotlib、Dajango
6876
2019-06-19 16:11:02
python网络爬虫培训班怎么样
python网络爬虫培训班怎么样?能学到东西吗?很多想转型做python开的的比较适合选择专业的python网络爬虫培训班,这样可以系统的学习专业知识,比较好的python培训班还有相关的项目实战项目,比如博学谷的Python+人工智能在线就业班,学习完可以掌握服务器端程序开发、web系统设计与开发、爬虫系统、数据分析、数据挖掘、机器学习、图像识别、深度学习等技术知识。
7363
2019-06-24 16:25:46
零基础学Python爬虫需要多久才能掌握?
爬虫又称网络蜘蛛,作为一种自动采集数据的手段,目前被广泛应用于互联网领域。它的实用性也引来许多人的学习兴趣,那么零基础学python爬虫需要多久才能掌握?以博学谷推出的Python爬虫课程为例,视频课程主要分为六大板块,相信快的话只要一周,零基础的同学也能快速掌握Python爬虫。那么如何才能掌握Python网络爬虫技术?下面为你细致讲述。
9955
2019-07-24 15:18:42
2019年学习C语言还是学Python爬虫?
2019年学习C语言还是学Python爬虫?非计算机专业学习编程最重要的是兴趣,先学C语言还是学Python开发老司机给你一些意见,Python上手简单、开发环境交互性强、众多第三方库,比C/C++有更容易学。入门编程需要了解C语言。C过于底层强在内存操作,功能实现复杂,并不适合新手学习。Python编程语言更值得新手学习。
8390
2019-10-10 16:54:26
学Python爬虫好找工作吗?要学到什么程度?
Python的火爆,同时也带动了Python爬虫岗位的的极大需求。可能有些人想问了,学Python爬虫真的好找工作吗?要学到什么程度?根据各大招聘网站的数据反馈,目前市场上对Python爬虫工程师的需求比较大。但是这并不意味着学习爬虫就好找工作了,除了熟练掌握Python爬虫技术,大家还需要许多知识,比如反爬机制、多进程、多线程爬虫等等。下面我们来详细看一看Python爬虫要学到什么程度。
5710
2019-12-02 15:19:17