在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

转载大数据批流处理之Lambda架构学习

发布时间：2022-03-02 10:17:27 浏览 3374 来源：数仓宝贝库作者：韩锐、刘驰

大数据批流处理之Lambda架构学习，Lambda架构是当前大数据中批流处理方向影响较为深刻且应用广泛的架构。对于在云端的数据中心实现针对海量历史数据的批量计算及优化需要分别在云端、边缘端实现针对流数据的实时处理。

Lambda架构

在实际生活中数据处理系统的能力亟待提高。最为迫切的便是如何利用云边协同计算平台的环境优势实现高效的批流融合处理系统，从而低延迟、高吞吐地对全量历史数据与实时的流数据进行融合计算，为各行业的新型应用提供有力支撑。

Lambda架构是什么？

对于在云端的数据中心实现针对海量历史数据的批量计算及优化，同时需要分别在云端、边缘端实现针对流数据的实时处理的场景。换言之为了达到全量数据批处理的准确性与实时数据流处理的低延迟的兼具，Nathan Marz基于他在Backtype和Twitter公司中对大数据处理系统的设计、开发经验，于2013年提出了批流处理系统架构Lambda。

Lambda架构是当前大数据中批流处理方向影响最为深刻、应用最为广泛的架构，主要分为以下3个组成部分：

(1)批处理层(batch layer)

该层负责两方面的内容：管理“主数据库”，即保存有完整的历史数据、持久化存储的、不可变的、仅支持追加的数据仓库;计算批处理视图，即通过批处理的方式对全量数据进行分析所得出的视图。

可见，批处理部分类似于其他专用批处理系统对大规模的数据在保证准确性和完整性的前提下，利用批处理优化技术进行全局分析。

(2)服务层(serving layer)

该层与批处理层一同工作功能上作为应用程序进行查询的服务器，负责对批处理层中产生的批处理视图建立索引以便应用程序能够根据用户的指定进行低延迟的、点对点(ad-hoc)的查询。需要注意的是，这里的“低延迟”指的是用于进行查询(query)时系统响应结果的延迟，这个时间会因为索引的建立而大大降低，但并不会改变批处理层中对全量数据进行计算更新的时间开销。

(3)流处理层(speed layer)

由批处理层与服务层组成的批处理部分能够对离线的历史数据进行完整的分析，但如同传统的批处理专用系统，这个处理过程将会遍历所有已存在的数据，将不可避免地造成较大的计算开销，并占用较长的处理时间。那么为了实现对实时数据的流式处理，便需要“流处理层”与它相结合。流处理层即基于流式处理建立的数据处理模块，弥补了批处理部分的高延迟更新缺陷，仅用于接收最近产生的流数据，并根据它进行计算得出即时结果。

这里的“计算”更准确而言应是“近似计算”，因为流处理部分并不能够获知全局的数据，而仅仅能够获取刚刚发生的事件及最近的状态信息，但同时也由于这个原因，流处理层具备批处理模块无法达到的视图更新速度，能够以高出数个数量级的响应效率，支撑用户对于最新数据的分析要求。

在上述批处理层、服务层和流处理层的基础上，Lambda架构的核心思想便是将数据输入到了批处理、流处理两个数据链路中，分别并行地进行计算，并在用户进行查询的阶段，将两个数据链路产生的结果(视图)进行融合，返回给用户。这样，一方面，批处理模块基于全量数据计算得出的结果保证了最终响应结果的完整性与准确性;另一方面，流处理模块基于实时数据进行流处理获得的即时更新保证了用户查询的极低延迟。

缺陷：设计和实现该架构的过程中，存在一些无法避免的问题，其中最为主要的便是开发和维护的复杂性。对于开发人员而言，实现一个较为完善的分布式处理系统需要付出很大的精力，这不仅表现在设计、编码的过程中，更表现在效率优化、后期维护升级等方面，每一个细节的调整都可能会导致设计思路的转变，从而造成较大的更新代价。

那么是否能够在尽量避免同时开发批、流两个系统的复杂性的同时，实现基于云边协同平台的批流融合处理呢?换言之能否改进批处理或流处理其中一个以使它不足的方面达到或接近另一模块的水平?

大数据技术大数据开发

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据Storm分布式实时处理框架是什么？用在哪儿？下一篇：大数据被应用较多的领域有哪些？

相关推荐 更多

参加大数据培训能找哪些工作？需要具备什么技能？

马云说我们进入了date时代。数据经代替大部分经验成为企业发展的指导准则。对于我们个体而言，首先我们的日常行为以及记录都是大数据的一部分。与此同时面对大数据的发展我们也有了更多的职业机会。因此很多小伙伴纷纷进入大数据培训学校，深化学习大数据技术。那现在参加大数据培训能找哪些工作？分别需要什么技能呢？

8312

2019-07-09 17:03:42

大数据开发大数据岗位就业前景
Hadoop的联邦机制大数据学习总结

Hadoop的NN所使用的资源受所在服务的物理限制，不能满足实际生产需求。本文来谈谈大数据学习之Hadoop的联邦机制，主要内容包括：Hadoop的局限与不足、联邦的实现、主要优点、配置和操作。

6638

2019-08-27 20:31:19

大数据开发大数据入门
程序员必须掌握的大数据分析核心技术有哪些？

程序员必须掌握的大数据分析核心技术有哪些？大数据分析技术现是一种传统的技术分析模型，主要对数据进行筛选、过滤之后进行分析。随着银行业、保险业，电子商务的不断发展，非结构数据的数量越来越多，增加了大数据分析的难度，对于大数据方面的程序员要求越来越高。

5942

2020-03-05 15:19:17

大数据技术大数据开发专业技能
元数据是什么？它有什么用？

在大家接触到数据仓库管理系统的学习之后，有一个绕不开的知识点就是元数据。那么，元数据是什么？它有什么用呢？简单来讲，元数据就是描述数据的数据，它的作用就是维护数据仓库。如果大家还不明白，可以看看下面更加具体的解释~

7671

2020-06-05 15:36:25

大数据技术数据库
大数据行业现在工作好不好找？很难吗？

大数据需求越来越多，国家也在开设相关岗位，从2018年开始就逐年较大的增长。报考大学的学生和家长也对大数据，人工智能非常感兴趣，大数据连续3年进了前5，而且学历主要是本科就可以。可以预见的将来这几年，这真的是一个朝阳行业，而且现在缺口很大。

4306

2022-07-01 18:15:56

大数据开发就业前景