• 在线客服

  • 扫描二维码
    下载博学谷APP

  • 扫描二维码
    关注博学谷微信公众号

  • 意见反馈

原创 如何利用Python爬取网页?

发布时间:2019-09-17 14:53:05 浏览 5746 来源:博学谷 作者:照照

    如今,网络爬虫早已被广泛应用在爬取网页上。虽然有许多编程语言都可以写爬虫,但是Python绝对是最好的选择。这是因为Python作为一种新手友好的语言,上手简单的同时标准库齐全,还有丰富的各种开源库,开发效率更是不用说,高于绝大多数语言。那么如何利用Python爬取网页呢?或者换句话说,怎样编写Python语言使用网络爬虫呢?

     

    如何利用Python爬取网页

     

    1、编写执行代码

     

    首先,你要安装requests和BeautifulSoup4,然后执行如下代码.

     

    import requests

     

    from bs4 import BeautifulSoup

     

    iurl = 'http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'

     

    res = requests.get(iurl)

     

    res.encoding = 'utf-8'

     

    #print(len(res.text))

     

    soup = BeautifulSoup(res.text,'html.parser')

     

    #标题

     

    H1 = soup.select('#artibodyTitle')[0].text

     

    #来源

     

    time_source = soup.select('.time-source')[0].text

     

    #来源

     

    origin = soup.select('#artibody p')[0].text.strip()

     

    #原标题

     

    oriTitle = soup.select('#artibody p')[1].text.strip()

     

    #内容

     

    raw_content = soup.select('#artibody p')[2:19]

     

    content = []

     

    for paragraph in raw_content:

     

    content.append(paragraph.text.strip())

     

    '@'.join(content)

     

    #责任编辑

    ae = soup.select('.article-editor')[0].text

     

    2、观看视频学习

     

    如果大家觉得光是文字不足以弄清Python爬取网页的技巧,也可以免费观看博学谷的学习视频。该课程视频主要讲述利用Python语言实现网络爬虫的技巧,学完这门课程后,大家可以学习到scrapy的操作,制作属于自己的爬虫,并了解网页解析的技巧。下面是视频课程主要内容:

     

    第一章 网络爬虫简介

     

    (1)网络爬虫的定义

     

    (2)URL的概述

     

    (3)url请求的基本操作

     

    (4)百度贴吧小爬虫-上

     

    (5)百度贴吧小爬虫-下

     

    (6)正则表达式

     

    第二章 scrapy制作小爬虫

     

    (1)内涵段子小爬虫上

     

    (2)回顾

     

    (3)内涵段子小爬虫下

     

    (4)scrapy制作小爬虫上

     

    (5)scrapy制作小爬虫下

     

    相信大家看完博学谷的网络爬虫课程,就能轻松利用Python爬取网页。对Python爬虫感兴趣的同学,还在等什么,现在就上博学谷官网,开始观看视频学习吧!

    申请免费试学名额    

在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!

上一篇: 数据分析培训班要学习多长时间? 下一篇: 数据分析师的工资水平如何?

相关推荐 更多

热门文章

  • 前端是什么
  • 前端开发的工作职责
  • 前端开发需要会什么?先掌握这三大核心关键技术
  • 前端开发的工作方向有哪些?
  • 简历加分-4步写出HR想要的简历
  • 程序员如何突击面试?两大招带你拿下面试官
  • 程序员面试技巧
  • 架构师的厉害之处竟然是这……
  • 架构师书籍推荐
  • 懂了这些,才能成为架构师
  • 查看更多

扫描二维码,了解更多信息

博学谷二维码