在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
很多人喜欢将python作为自己的主开发语言,不仅仅是因为python的功能强大,更重要的是Python的代码简单易上手,并且相对应用领域非常广泛。想学习python的朋友一般都会从学习基础语言或者爬虫开始。那如何实现python爬虫?python爬虫好学吗?小编就和大家一起了解一下。
一:爬虫准备
1.爬虫首先需要做的事情就是要确定好你想要爬取数据的对象,这里我将以百度主页logo图片的地址为例进行讲解。
2.首先,是打开百度主页界面,然后把鼠标移动到主页界面的百度logo图标上面,点击鼠标右键,然后点击审查元素,即可打开开发者界面。
3.然后再下面的界面里面,可以看到该logo图标在HTML里面的排版模式,<img hidefocus="true" src="//百度/img/bd_logo1.png" width="270" height="129">,这里百度我用字替换了。
二:开始爬虫
1.爬虫主要分为两个部分,第一个是网页界面的获取,第二个是网页界面的解析;爬虫的原理是利用代码模拟浏览器访问网站,与浏览器不同的是,爬虫获取到的是网页的源代码,没有了浏览器的翻译效果。
2.首先,我们进行页面获取,python爬虫的话很多模块包提供给开发者直接抓取网页,urllib,urllib2,requests(urllib3)等等,这里我们使用urllib2进行网站页面的获取;首先导入urllib2模块包(该包是默认安装的):import urllib2
3.导入模块包之后,然后调用urllib2中的urlopen方法链接网站,代码如下repr = urllib2.urlopen("XXXXXX"),XXXXXX代表的是网站名称。
4.得到网站的响应之后,然后就是将页面的源代码读取出来,调用read方法,html = repr.read()
5.获取到页面的源代码之后,然后接下来的工作就是将自己想要的数据从html界面源代码中解析出来,解析界面的模块包有很多,原始的re,好用的BeautifulSoup,以及高大上的lxml等等,这里我就简单的用re介绍介绍,首先导入re模块包:import re
6.然后进行利用re进行搜索,这里我有使用正则表达式,看不懂的同学需去补充点正则表达式方面的知识。
7.然后,我这里就实现了一个简单的爬虫流程,打印url,可以看见刚好就是之前我们看见的百度主页logo的地址。
8.源代码:
import urllib2
repr = urllib2.urlopen("URL")
html = repr.read()
import re
省略一行代码
print url
以上就是和大家分享的实现爬虫的一个真实案例。希望大家能够对爬虫有一个了解。当然在python学习中一定要自己亲手联系,目前企业对于求知者的要求更加注重其实战能力。所以掌握爬虫技术仅仅是入门,最好是能够熟练的应用。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
2019年Python学习路线及学习目标规划拿走不谢
2019年Python学习路线及学习目标规划拿走不谢,Python作为今年来特别受欢迎的编程语言,是AI时代头牌语言AI领域的敲门砖,Python已经入驻小学生教材,将来不学Python不仅知识会脱节与小朋友都没共同话题了,作为程序员的我们,必须给自己增加一项技能,提高职场竞争力,掌握一定的Python技能。
7094
2019-09-27 15:18:28
Python课程在线学习优势有哪些?
随着人工智能的深入发展,Python语言也处在风头正盛的时候,不少编程初学者把Python作为入门编程的首选。但是对于许多人来讲,脱产学习的代价太大,因此线上学习成为适合绝大多数人的学习模式。那么,目前Python课程在线学习优势有哪些?以博学谷Python+人工智能在线就业班的课程为例,课程的主要优势体现在优质的课程内容,完善的就业服务和灵活的学习模式三大方面。下面是详细的分析介绍:
4950
2019-12-31 14:53:24
零基础快速上手Python要多久?
人生苦短,我用Python。这句话完美的总结了Python这门编程语言的优点,即简洁优美,功能强大,新手友好。Python总能够轻松帮我们实现复杂的功能,因此不管是出于什么原因学习Python,都是十分值得的。毫不夸张的说,在未来掌握一门编程语言将是大势所趋,而Python则是零基础学习者最好的选择。那么零基础快速上手Python要多久呢?这个要结合情况具体分析,学习时间从一个月到半年不等。
5390
2020-03-02 18:12:38
入门Python基础知识点总结
Python基础入门主要学习变量,运算符,输入输出和条件以及循环语句,认识Python零基础入门Python开发,了解常用的Linux命令。熟练掌握Python的变量、输入输出、运算符、条件和循环语句,了解使用过常用linux命令。
3370
2021-06-09 16:55:44
事件代理如何使用?代码怎么写?
事件代理如何使用?代码怎么写?事件代理就是把一个元素响应事件(click、keydown…)的函数委托到另一个元素。在 JavaScript中的事件委托又称事件代理,事件委托就是利用事件冒泡,只指定一个事件处理程序管理某一类型的所有事件。
2763
2022-01-06 11:46:12