在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
数据挖掘是什么?数据挖掘基本步骤,数据挖掘过程定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。
数据挖掘指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。
数据挖掘步骤。数据挖掘通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。
数据挖掘步骤:
1、定义问题
在开始知识发现之前最先的也是最重要的要求就是了解数据和业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。比如,想提高电子信箱的利用率时,想做的可能是“提高用户使用率”,也可能是“提高一次用户使用的价值”,要解决这两个问题而建立的模型几乎是完全不同的,必须做出决定。
2、建立数据挖掘库
建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库。
3、分析数据
分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时和累人的事情,这时需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事情。
4、准备数据
建立模型之前的最后一步数据准备工作。可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量。
5、建立模型
建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型需要把数据至少分成两个部分,一个用于模型训练,另一个用于模型测试。
6、评价模型
模型建立好之后,必须评价得到的结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类型和由此带来的相关费用的多少。经验证明,有效的模型并不一定是正确的模型。造成这一点的直接原因就是模型建立中隐含的各种假定,因此,直接在现实世界中测试模型很重要。先在小范围内应用,取得测试数据,觉得满意之后再向大范围推广实施。模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析人员做参考;另一种是把此模型应用到不同的数据集上。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
为什么大数据和云计算备受关注,大数据与云计算的关系
互联网技术不断突破与革新,大数据和云计算的概念现在已经成为互联网的热门词汇。为什么大数据和云计算这样备受关注呢?他们之间有什么关系?相信很多小伙伴也存在这样的疑问。
7526
2019-06-12 17:36:02
仅会使用Excel能做数据分析师吗?
数据分析师就是在各行各业中与数据打交道的重要岗位。为企业提供数据采集、数据处理、数据分析并制作相关业务报告、提供业务决策、管理企业数据资产等服务。那仅会使用Excel,能做数据分析师吗?
7655
2019-08-08 18:06:48
大数据Kafka进阶面试题汇总
Kafka是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景。在大数据面试中,Kafka也是一个必考点。因此小编汇总了历年来比较经典常见的大数据Kafka进阶面试题。
5680
2019-08-22 19:26:09
大数据未来的发展方向和趋势预测分析
在大数据时代,任何一个细微的数据都能被挖掘和了解,可以说大数据已经渗透进了现代生活的每个的角落,影响并改变着我们日常生活和工作的方方面面。在未来,大数据还会又怎样的发展呢?本文就来为大家预测分析一下大数据未来的发展方向和趋势。
8534
2019-09-27 11:39:15
2020年云计算大数据课程学习大纲
本文将为大家分享2020年云计算大数据课程的一份学习大纲,本课程从大数据基础增强开始, 内容精准聚焦大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等重要内容,涵盖了大数据体系中几乎所有的核心技术。如果大家对云计算大数据感兴趣的话,不妨来看看,对自己的学习规划也是有一定帮助的。
5489
2020-04-28 17:34:28