在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
大数据的属性是什么?如何划分?拥有大数据是件令人兴奋的事,但在实践中处理大数据存在一定的困难,如数据量过大事情就会变得更困难。为了处理大数据要采用高性能算法,这些算法也已展现出惊人的优越性。
数据通常由一个矩阵表示,矩阵的行表示不同的条目或记录,列则表示这些条目的不同属性特征。例如,关于美国的城市数据集中每一行代表一个城市,每列则代表州、人口和地区等特征。
大数据的属性是什么?
一、结构化与非结构化数据
某些数据集具有很好的结构性,就像数据库中的数据表或电子表程序中一样。而其他的数据以更多样的形式记录着有关世界状况的信息。它们可能是像维基百科这样包含图像和超级链接的文本语料库,也可能是个人医疗记录中出现的复杂的注释和测试结果的混合数据。
数据通常由一个矩阵表示,矩阵的行表示不同的条目或记录,列则表示这些条目的不同属性特征。例如,关于美国的城市数据集中每一行代表一个城市,每列则代表州、人口和地区等特征。
当面对一个非结构化数据源时,我们通常首先要构建一个矩阵以使这些数据结构化。词袋模型可以构建一个矩阵,每条推文对应矩阵中的一行,每个常用词汇对应矩阵中的一列。矩阵项M[i, j]则表示推文i中单词j出现的次数。
二、定量数据与类别数据
定量数据由数值组成,如高度和重量。这些数据可以被直接带入代数公式和数学模型,也可以在传统的图表中进行表示。相比之下,类别数据则由描述被调查对象属性的标签组成,如性别、头发颜色和职业。这种描述性信息可以像数值型数据一样精确而有意义,但不能使用相同的方法进行处理。
类别数据通常可以进行数字化编码。例如,性别可以表示为男=0或女=1。但如果每个特性包含两个以上字符,尤其当它们之间没有隐序时,事情会变得更加复杂。我们可以对头发的颜色进行数字化编码,即为不同颜色匹配不同的数值,如灰色头发=0、红色头发=1以及金色头发=2。然而,除了单纯地进行特征识别之外,我们并不能真正将这些值视为数字。讨论头发的最大或最小颜色有什么意义呢?又如何解释我的头发颜色减去你的头发颜色的含义呢?
三、大数据与小数据
在大众眼中数据科学已经与大数据混为一谈,数据科学以计算机日志和传感器设备产生的海量数据集为分析对象。原则上,拥有更多的数据总是比数据少要好,因为如果有必要,可以通过抽样来舍弃其中的一些数据,从而得到一个更小的数据集。
拥有大数据是件令人兴奋的事。但在实践中,处理大数据存在一定的困难。一般来说,一旦数据量过大,事情就会变得更困难。大数据的挑战包括:
一个分析周期所用的时间随着数据规模的增长而变长:对数据集的计算性操作会随着数据量的增加而花费更长的时间。电子表格可以提供即时响应,允许用户进行实验测试以及验证各种假设。但计算大型电子表格时,会变得笨拙而缓慢。处理大规模数据集可能需要数小时或数天才能得到结果。为了处理大数据,要采用高性能算法,这些算法也已展现出惊人的优越性。但是绝不能为了获得更快的计算速度而将大数据拆分为小数据。
大型数据集复杂的可视化过程:在计算机屏幕或打印的图像上不可能将大数据中的数百万个要点全部绘制出来,更不要说对这些数据进行概念性的理解了。我们无法满怀希望地去深入理解一个根本无法看到的东西。
简单的模型不需要大量的数据来匹配或评估:典型的数据科学任务是基于一小部分变量做出决策,比如,根据年龄、性别、身高、体重以及现有的医疗水平来决定是否应该为投保人提供人寿保险。
如果有100万人的生活相关数据,那么应该能够建立一个具有较好保险责任的一般模型。但是当数据量扩充到几千万人时,可能对于优化模型就不再产生作用了。基于少数几个变量(如年龄和婚姻状况)的决策准则不能太复杂,而且在覆盖大量的保险申请人数据时呈现出鲁棒性。那些不易被察觉的发现,需要大量数据才能被巧妙地获得,而这却与数据体量的大小无关。
大数据有时被称为坏数据。它们作为已有系统或程序的副产品被收集起来,而不是为了回答我们手头已经设计好的问题而有目的地收集来的。这就使得我们可能不得不努力去解释一些现象,仅仅是因为我们拥有了这些数据。
总统候选人如何从分析选民偏好中获得收益?大数据方法可能会分析大量的Twitter或Facebook上的网络数据,并从文本中推测出选民的观点。而小数据方法则通过民意调查,对特定的问题询问几百人并将结果制成表格。哪种方法更准确呢?正确的数据集与要完成的任务具有直接相关性,而不一定是那个数量最大的数据集。
不要盲目地渴望分析大型数据集。寻找正确的数据来回答给定的问题,而不是做没有必要参与的“大事情”。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
参加大数据培训能找哪些工作?需要具备什么技能?
马云说我们进入了date时代。数据经代替大部分经验成为企业发展的指导准则。对于我们个体而言,首先我们的日常行为以及记录都是大数据的一部分。与此同时面对大数据的发展我们也有了更多的职业机会。因此很多小伙伴纷纷进入大数据培训学校,深化学习大数据技术。那现在参加大数据培训能找哪些工作?分别需要什么技能呢?
7901
2019-07-09 17:03:42
R语言零基础入门学什么?
R语言零基础入门学习,R语言是通过编程来进行数据分析和作图的工具,统计分析和数据分析,是进入数据分析行业或领域的必备编程语言。重点学习使用R语言进行数据处理的基本思路和方法。
5480
2020-01-07 16:14:17
大数据课程有哪些实战项目?
随着大数据行业的蓬勃发展,就业市场对于大数据从业者也提出了更高的要求。为了培养出真正掌握大数据开发能力的人才,博学谷的大数据课程除了有大数据理论知识的系统学习,还有涉及各个领域的大数据开发实战项目。那么大数据课程有哪些实战项目呢?一起来看看吧!
6154
2020-07-21 16:16:30
大数据开发工程师招聘要求高吗?
大数据开发工程师该岗位对于技术要求较高,有一定的技术门槛。大数据工程师不少细分方向,不同的方向需要具备不同的知识结构,分别是大数据底层平台研发、大数据应用开发、大数据分析和大数据运维。
5754
2020-12-15 16:16:44
大数据Hadoop生态体系中常见的子系统有哪些?
Hadoop是一个针对大量数据进行分布式处理的软件框架,是一个开发和运行处理大规模数据的软件平台,是Appach的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算,具有可靠、高效、可伸缩的特点,很多程序会用到这个框架。
4535
2021-03-17 13:58:05