原创反爬技术解决方案有哪些？常见的反爬措施分享

发布时间：2019-07-16 18:25:48 浏览 10950 来源：博学谷资讯作者：三省

　　反爬技术解决方案有哪些？常见的反爬措施分享：反爬技术Headers、IP限制、UA限制、验证码反爬虫或者模拟登陆、Ajax动态加载、cookie限制的相关介绍。

反爬技术解决方案

　　一、反爬技术Headers：

　　从用户的Headers进行反爬是最常见的反爬虫策略。Headers（上一讲中已经提及）是一种区分浏览器行为和机器行为中最简单的方法，还有一些网站会对Referer（上级链接）进行检测（机器行为不太可能通过链接跳转实现）从而实现爬虫。

　　相应的解决措施：通过审查元素或者开发者工具获取相应的Headers然后把相应的Headers传输给python的requests，这样就能很好地绕过。

　　二、反爬技术IP限制

　　一些网站会根据你的IP地址访问的频率，次数进行反爬。也就是说如果你用单一的IP地址访问频率过高，那么服务器会在短时间内禁止这个IP访问。

　　解决措施：构造自己的IP代理池，然后每次访问时随机选择代理（但一些IP地址不是非常稳定，需要经常检查更新）。

　　三、反爬技术UA限制

　　UA是用户访问网站时候的浏览器标识，其反爬机制与ip限制类似。

　　解决措施：构造自己的UA池，每次python做requests访问时随机挂上UA标识，更好地模拟浏览器行为。当然如果反爬对时间还有限制的话，可以在requests设置timeout最好是随机休眠，这样会更安全稳定，time.sleep()。

　　四、反爬技术验证码反爬虫或者模拟登陆

　　验证码：这个办法也是相当古老并且相当的有效果，如果一个爬虫要解释一个验证码中的内容，这在以前通过简单的图像识别是可以完成的，但是就现在来讲，验证码的干扰线，噪点都很多，甚至还出现了人类都难以认识的验证码（~~~~~~~）。

　　相应的解决措施：验证码识别的基本方法：截图，二值化、中值滤波去噪、分割、紧缩重排（让高矮统一）、字库特征匹配识别。（python的PIL库或者其他）模拟登陆（例如知乎等）：用好pythonrequests中的session(下面几行代码实现了最简单的163邮箱的登陆，其实原理是类似的~~）。

　　import requests
　　s =requests.session()
　　login_data={"account":" ","password":" "}
　　res=s.post("http://mail.163.com/",login_data)

　　五、反爬技术Ajax动态加载

　　网页的不希望被爬虫拿到的数据使用Ajax动态加载，这样就为爬虫造成了绝大的麻烦，如果一个爬虫不具备js引擎，或者具备js引擎，但是没有处理js返回的方案，或者是具备了js引擎，但是没办法让站点显示启用脚本设置。基于这些情况，ajax动态加载反制爬虫还是相当有效的。

　　Ajax动态加载的工作原理是：从网页的url加载网页的源代码之后，会在浏览器里执行JavaScript程序。这些程序会加载出更多的内容，并把这些内容传输到网页中。这就是为什么有些网页直接爬它的URL时却没有数据的原因。

　　处理方法：若使用审查元素分析”请求“对应的链接(方法：右键→审查元素→Network→清空，点击”加载更多“，出现对应的GET链接寻找Type为text/html的，点击，查看get参数或者复制RequestURL)，循环过程。如果“请求”之前有页面，依据上一步的网址进行分析推导第1页。以此类推，抓取抓Ajax地址的数据。对返回的json使用requests中的json进行解析，使用eval（）转成字典处理（上一讲中的fiddler可以格式化输出json数据。

　　六、反爬技术cookie限制

　　一次打开网页会生成一个随机cookie，如果再次打开网页这个cookie不存在，那么再次设置，第三次打开仍然不存在，这就非常有可能是爬虫在工作了。

　　解决措施：在Headers挂上相应的cookie或者根据其方法进行构造（例如从中选取几个字母进行构造）。如果过于复杂，可以考虑使用selenium模块（可以完全模拟浏览器行为）。

Python爬虫反爬技术

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇： Redis和MongoDB优缺点对比下一篇： Flask框架和Django框架的区别是什么？

相关推荐 更多

学会Python爬虫能赚大钱吗？Python爬虫赚钱渠道分享

学会Python爬虫能赚大钱么？首先大家要明白这个只是作为一个技术兼职，赚点外快，肯定不比程序员全职工作的工资高。其次赚的多少还要看大家赚钱的渠道。下面小编就和大家分享一下，Python爬虫赚钱渠道，希望对大家有所帮助。

13938

2019-08-26 11:34:54

Python爬虫实战项目
Python爬虫怎么挣钱？解析Python爬虫赚钱方式

Python爬虫怎么挣钱？解析python爬虫赚钱方式，想过自己学到的专业技能赚钱，首先需要你能够数量掌握Python爬虫技术，专业能力强才能解决开发过程中出现的问题，Python爬虫可以通过Python爬虫外包项目、整合信息数据做产品、独立的自媒体三种方式挣钱。

14982

2019-10-16 15:47:57

Python爬虫薪资待遇
做Python网络爬虫需要掌握哪些核心技术？

在当下这个社会，如何有效地提取并利用信息成为一个巨大的挑战。基于这种巨大的市场需求，爬虫技术应运而生，这也是为什么现在爬虫工程师的岗位需求量日益剧增的原因。那么做Python网络爬虫需要掌握哪些核心技术呢？以博学谷推出的《解析Python网络爬虫》课程为例，内容涉及Scrapy框架、分布式爬虫等核心技术，下面我们来一起看一下Python网络爬虫具体的学习内容吧！

8518

2019-12-04 17:38:16

Python爬虫
网络爬虫是干什么的？有哪些应用场景？

随着互联网信息的爆炸，网络爬虫渐渐为人所熟知。作为一种自动爬取网页信息的手段，很多人其实都不太清楚它在实际生活的巨大作用。那么，网络爬虫是干什么的？有哪些应用场景呢？简单来讲，搜索引擎、统计数据、出行类软件、聚合类平台等等方面，都离不开网络爬虫的使用。下面让我们来详细看看网络爬虫的应用场景和作用吧！

17712

2020-08-05 11:45:41

Python爬虫网络爬虫应用场景
Python bs4怎么安装？

bs4是BeautifulSoup4的简称，它是一个可以从HTML中提取数据的Python第三方库。具体来讲，bs4可以从茫茫的HTML代码中准确查找出你想要的内容，甚至一个小小的字符串。听起来是不是感觉bs4很厉害的样子？那么，Python bs4怎么安装呢？下面小编带领大家一步步的实现安装与导入的过程。

7391

2020-08-07 09:54:41

Python爬虫Python入门