在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创常用的大数据实时计算框架有哪些？

发布时间：2021-03-10 09:50:12 浏览 5239 来源：博学谷作者：小数点

常用的大数据实时计算框架有哪些？在大数据技术中，有离线计算、批量计算、实时计算以及流式计算，其中，离线计算和实时计算指的是数据处理的延迟;批量计算和流式计算指的是数据处理的方式。

大数据实时计算框架

Web应用、网络监控、传感监测、电信金融、生产制造等领域，对数据实时处理的需求不断增强，而Spark中的SparkStreaming实时计算框架就是为了实现对数据实时处理的需求而设计的。在电子商务中，淘宝、京东等网站从用户点击的行为(如加入购物车)和浏览的历史记录中发现用户的购买意图和兴趣，然后通过Sparkstreaming实时计算框架分析处理，为之推荐相关商品，从而有效地提高商品的销售量，同时也增加了用户的满意度，可谓是“一举两得”。

那么什么是大数据实时计算？

传统的数据处理流程(离线计算)，先收集数据，然后将数据存储到数据库中。当需要某些数据时，通过对数据库中的数据做操作得到所需要的数据，再进行其他相关的处理。这样的处理流程会造成结果数据密集，结果数据密集则数据反馈不及时。在实时搜索的应用场景中，需要实时数据做决策，而传统的数据处理并不能很好地解决问题，这就引出了一种新的数据计算实时计算，针对海量数据进行实时计算，无论是在数据采集还是数据处理中都可以达到秒级别的处理要求。

常用的大数据实计算框架：

目前业内已经衍生出许多实时计算数据的框架，如 Apache Spark Streaming、ApacheStorn、Apache Flink以及 Yahoo! S4。

一、Apache Spark Streaming
Apache Spark Streaming即Apache公司免费、开源的实时计算框架。它主要是把输入的数据按时间进行切分，并对切分的数据块进行并行计算处理，处理的速度可以达到秒级别。Netflix公司通过Kaka和SparkStreaming构建了实时引擎，对每天从各种数据源接收到的数十亿数据进行分析，从而完成电影的推荐功能。

二、ApacheStorm
Apache Storm即Twitter公司免费、开源贡献给Apache的一个分布式实时计算系统。它可以简单、高效、可靠地实时处理海量数据，处理数据的速度达到毫秒级别，并可将处理后的结果数据保存到持久化介质中(如数据库、HDFS)。阿里巴巴公司的Jstorm，就是参考ApacheStorn开发的实时计算框架，可以说是Stom的增强版本，在网络IO、线程模型、资源调度、可用性及稳定性上都做了极大的改进供很多企业使用。

三、Apache Flink
Apache Flink即Apache公司开源的计算框架。它不仅可以支持离线处理，还可以支持实时处理。由于离线处理和实时处理所提供的SLA(服务等级协议)是完全不相同的，所以离线处理一般需要支持低延迟的保证，而实时处理则需要支持高吞吐、高效率的处理。

四、Yahoo! S4(Simple Scalable Streaming System)
Yahoo! S4即Yahoo公司开源的实时计算平台，通用的、分布式的、可扩展的，并且还具有容错和可插拔能力，供开发者轻松地处理源源不断产生的数据。

大数据框架

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：上海大数据培训机构哪家好？怎么选？下一篇：大数据工程技术人员培训哪些内容？

相关推荐 更多

盘点五种主流的大数据计算框架

目前市面上有很多大数据框架，如批处理框架Hadoop，流处理框架Storm，以及混合处理型框架Flink和Spark，本文就对当前的分布式计算框架进行了系统的回顾与盘点。

14975

2019-07-02 19:04:03

大数据框架
掌握Hive架构需要学什么?

Hive是建立在Hadoop上的数据仓库基础构架，它提供了一系列的工具，可以用来进行数据提取转化加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类 SQL 查询语言，它允许熟悉SQL的用户查询数据。因此掌握Hive是学习大数据的必修课，那么掌握Hive架构需要学什么呢？本文将为大家讲述Hive的具体学习内容，下面是Hive视频教程的学习大纲：

5030

2020-05-11 18:05:41

大数据课程大数据框架数据库
大数据开发离线计算框架知识点总结

大数据开发离线计算框架知识点总结，大数据在带来发展机遇的同时，也带来了新的挑战，催生了新技术的发展和旧技术的革新。大数据离线计算技术应用于静态数据的离线计算和处理，框架设计的初衷是为了解决大规模、非实时数据计算，更加关注整个计算框架的吞吐量。

6070

2020-07-16 16:41:14

大数据技术大数据框架
Spark与Hadoop大数据计算框架区别是什么？

ApacheSpark专为大规模数据处理而设计的快速通用的计算引擎，而Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop和Spark都是大数据框架，但各自存在的目的不同。

4168

2021-04-12 10:07:37

大数据框架
Spark SQL架构工作原理及流程解析

spark sql从shark发展而来，Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑。

4987

2021-05-18 10:53:42

大数据框架