在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Pandas如何分块处理大文件?在处理快手的用户数据时,碰到600M的txt文本,用sublime打开蹦了,用pandas.read_table()去读竟然花了小2分钟,打开有3千万行数据。仅仅是打开,要处理的话不知得多费劲。
解决:读取文件的函数有两个参数:chunksize、iterator。原理分多次不一次性把文件数据读入内存中。
1.指定chunksize分块读取文件
read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。
对文件进行了划分,分成若干个子文件分别处理(to_csv也同样有chunksize参数)
2.指定iterator=True
直接看pandas文档相关的内容。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
学大数据技术必须了解的大数据经典应用案例
我们已经进入了数据化的时代,大数据开发技术、数据分析已经成为目前企业最核心的关注点。数据为企业提供了更加可靠的支撑,对于优化产业结构、提升生产效率有非常明显的作用。在企业纷纷布局大数据业务的同时,大数据相关人才缺口逐渐扩大。目前国内大数据相关从业人员已经超过20万,作为大数据从业人员,必须了解一些大数据相关的经典应用案例。
5910
2019-08-22 18:03:14
大数据HIve数据仓库应用案例讲解分析
如今,大数据的大浪已经把我们每个人都卷入其中,随着大数据技术一起引起大众注意的还有HIve数据仓库。作为大数据分析的核心工具之一,它一直发挥着为企业提供决策支持的重要作用。因此掌握Hive是入门大数据学习的关键之一,下面我们就一起来看看HIve数据仓库应用案例讲解。
6819
2019-09-20 16:55:35
数据分析应用在哪些领域?都起到了什么作用?
随着大数据的发展,数据分析早已渗透各行业各业,尤其是互联网、电商和金融三大行业。同时数据分析在电信、旅游、医疗健康等等领域,也有比较多的应用。下面我们来看看在这些领域数据分析究竟起了什么作用。
11716
2019-09-28 09:54:27
数据中台对企业有哪些意义和作用?
随着数据化浪潮席卷全球,数据中台也由此应运而生。众所周知,数据中台的主要作用在于把数据进行统一标准和口径之后,再进行储存和加工,从而使企业可以提供更高效的服务。简单来讲,数据中台是以节省企业成本,实现精细化运营为目标。那么数据中台对企业到底有哪些具体意义和作用呢?下面我们来具体看一下。
6756
2020-02-10 22:29:52
大数据开发为什么要参加系统学习呢?
自从发展大数据产业被写入政府工作报告、BAT高薪聘请专业大数据人才之后,很多小白也开始纷纷转行进入大数据领域。很多的转型者都将参加培训机构看成是自己转型最高效的方式。
3300
2020-12-10 15:31:43