在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
Pandas如何分块处理大文件?在处理快手的用户数据时,碰到600M的txt文本,用sublime打开蹦了,用pandas.read_table()去读竟然花了小2分钟,打开有3千万行数据。仅仅是打开,要处理的话不知得多费劲。
解决:读取文件的函数有两个参数:chunksize、iterator。原理分多次不一次性把文件数据读入内存中。
1.指定chunksize分块读取文件
read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。
对文件进行了划分,分成若干个子文件分别处理(to_csv也同样有chunksize参数)
2.指定iterator=True
直接看pandas文档相关的内容。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据是如何做到目标用户精准营销
大数据是如何做到目标用户精准营销?营销的核心是“人”,哪怕拥有大数据加持,也应以“人”为本。大数据一般取材于日常工作生活,通过分析、挖掘我们的日常行为产生的数据资源,以指导、影响日常工作生活决策,甚至影响整个行业的生存与发展。
10274
2019-04-10 00:08:24
学大数据技术与应用的女生多吗?适合吗?
随着人工智能的发展,对于大数据方面的人才需要越来越大,高校里面选择大数据技术的人不在少数,女生适不适合学大数据技术与应用这个问题跟女生适不适合学IT技术一样,没有性别限制,女生更适合数据分析方便的工作。
8935
2020-09-23 10:31:38
大数据开发要学Java框架吗?
学习大数据要去学习Java而且还要精通,不仅要掌握Java基础知识还要掌握一些核心的Java架构。从java基础开始,学习大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等,掌握大数据体系中几乎所有的核心技术。
4003
2021-01-26 11:45:34
10月数据库排行榜出炉,火速围观!
十月份的数据库榜单出炉啦!DB-Engines最近发布了2021年10月份的数据库排名,网站是根据数据库管理系统当前的流行程度进行排名,排名每月更新一次。这份榜单分析主要为数据库相关从业人员提供一个技术方向的参考,其中数据库排名情况并非依据产品市场占有率等因素。
3547
2021-10-19 18:27:08
博学谷狂野大数据学习多长时间?
狂野大数核心课程以全程直播方式授课,共计330小时,如果每天能保证4小时的高效学习效率,需要学习3个月左右,因为每个人的学习情况不一样学习周期会有所差别。
2828
2022-09-16 15:31:26