0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

对于大数据的处理,主要有几个工具引擎

姚小熊27 来源:今日头条 作者:今日头条 2020-11-05 10:14 次阅读

提到大数据,我们就离不开数据的收集整理,其中ETL是我们经常使用的用于构建数据仓库, 构建大数据的方法。

大数据处理阶段

此阶段的目标是使用单个模式来清理,规范化,处理和保存数据。最终结果是具有定义良好的架构的可信数据集。例如Spark之类的处理框架用于在机器集群中并行处理数据。在这里我们需要进行数据的验证,隔离掉不合法的数据,我们需要对不良数据进行筛选过滤。对于不规范的数据,我们需要有整理和清洁功能,我们要能够将一些低效的格式入json进行转换。同时我们可能还需要一些标准化的操作,比如对一些数值进行小数点位的精度转化。

大数据处理的最终目的就是创建一个可信数据集,然后下游系统可以依赖此数据源进行业务分析和数据计算。

对于大数据的处理,主要有下面的几个工具引擎。

Apache Hive

它是将SQL请求转换为MapReduce任务链的引擎。它主要实现的功能是对传入的SQL进行排序然后优化排序结果,最终得到高效率的请求结果。2018年它将MapReduce替换为Tez作为搜索引擎。它具有机器学习功能,并且在和其他流行的大数据框架进行集成。

Apache Spark

这是最著名的批处理框架。它是Hadoop生态系统的一部分,是一个托管集群,可提供强大的并性,有着精准的监控和出色的UI。它还支持流处理(结构化流)。基本上,Spark在内存中运行MapReduce作业,其性能是常规MapReduce性能的100倍。它与Hive集成以支持SQL,并可用于创建Hive表,视图或查询数据。它具有很多集成,支持多种格式,并且拥有庞大的社区。所有云提供商都支持它。它可以在YARN上运行作为Hadoop集群的一部分,还可以在Kubernetes和其他平台中使用。它具有许多的第三方库可以使用。

Apache Flink

第一个统一批处理和流传输的引擎,它可以用作像Kafka这样的微服务的主干。它可以作为Hadoop集群的一部分在YARN上运行,它还针对其他平台(如Kubernetes或Mesos)进行了优化。它非常快,并且提供实时流传输,使其成为针对低延迟流处理(尤其是有状态流)的一个比Spark更好的选择。它还具有用于SQL,机器学习等的库。它比Spark更快,是数据流的更好选择。

Apache Storm

是一个免费和开源的分布式实时计算系统,它专注于流传输,是Hadoop生态系统的托管解决方案部分。它具有可扩展性,容错性,可确保您的数据将得到处理,并且易于设置和操作。

Apache Samza

一个出色的有状态流处理引擎。Samza允许您构建有状态的应用程序,它可以从多个来源实时处理数据。它不仅可以在YARN集群上运行,也可以作为独立库单独运行。

Apache Beam

它本身不是引擎,而是将所有其他引擎结合在一起的统一编程模型的规范。它提供了可以与不同语言一起使用的编程模型,因此开发人员在处理大数据管道时不必学习新的语言。然后,它为可以在云或本地运行的处理步骤插入了不同的后端。Beam支持前面提到的所有引擎,您可以在它们之间轻松切换并在任何平台上运行它们:云,YARN,Mesos,Kubernetes。如果您要开始一个新项目,那么建议您从Beam开始,因为Beam是面向未来的。

Presto

Presto是一个开放源代码的分布式SQL查询引擎,适合于对各种大小,各种数据源进行交互式分析查询。

Presto是专为交互式分析而设计和编写的,当它的规模扩展到一定的规模的时候,它也可以实现商业数据仓库的处理速度。

Presto允许查询数据存在多个地方,包括Hive,Cassandra,关系数据库甚至专有数据存储。一个Presto查询可以合并来自多个来源的数据,从而可以在整个组织中进行分析。

Presto适用于期望响应时间从亚秒到数分钟不等的分析师。Presto打破了使用昂贵的商业解决方案进行快速分析或使用需要大量硬件的慢速“免费”解决方案之间的错误选择。

总结

处理引擎是当前在大数据词中使用的很著名的工具。作为大数据工程师,您将经常使用这些引擎。了解这些引擎的分布式特性并知道如何优化它们,保护它们并监视它们至关重要。

请记住,还有一些OLAP引擎提供了一种查询大量数据的单一解决方案,而无需编写复杂的转换,而是通过以一种特定的格式加载数据来提高查询的性能。

对于一个新项目,建议您研究Apache Beam,因为它在所有其他引擎的基础上提供了一个抽象,使您无需更改代码即可更改处理引擎。

对于流处理,特别是有状态流处理,请考虑Flink或Samza。对于批处理,请使用Spark。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8884

    浏览量

    137423
收藏 人收藏

    评论

    相关推荐

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据
    的头像 发表于 12-18 09:45 113次阅读

    linux驱动程序主要有哪些功能

    Linux驱动程序是操作系统与硬件设备之间进行通信的桥梁,负责实现硬件设备与操作系统之间的数据交换和控制。Linux驱动程序的主要功能包括以下几个方面: 设备识别与初始化 Linux驱动程序需要
    的头像 发表于 08-30 14:47 355次阅读

    SMT锡膏钢网的清洗工艺主要有哪些?

    成本,就需要选择合适的清洗工艺及清洗剂。下面佳金源锡膏厂家来讲解一下SMT锡膏钢网的清洗工艺主要有哪些?一、手工浸泡擦洗方式:手工浸泡擦洗就是把SMT钢网浸泡入清
    的头像 发表于 08-26 16:22 599次阅读
    SMT锡膏钢网的清洗工艺<b class='flag-5'>主要有</b>哪些?

    工业控制设备间主要有哪些有线通信威廉希尔官方网站 ?

    信威廉希尔官方网站 的详细介绍。       1.串行通信威廉希尔官方网站       串行通信威廉希尔官方网站 是一种最基本的有线通信威廉希尔官方网站 ,广泛应用于工业控制领域。它通过一条数据线(TX)和一条接收线(RX)实现数据的发送和接收。串行通信威廉希尔官方网站 主要有以下几种:    
    的头像 发表于 06-23 16:38 863次阅读

    NFC功能是什么?主要有哪些应用?

    NFC是一种新兴的威廉希尔官方网站 ,即近距离无线通讯威廉希尔官方网站 ,使用了NFC威廉希尔官方网站 的设备可以在彼此靠近的情况下进行数据交换,是由非接触式射频识别(RFID)及互连互通威廉希尔官方网站 整合演变而来的。 NFC在单一芯片上结合感应式读卡器、感应式卡片和点对点的功能,能在短距离内与兼容设备进行识别和数据
    的头像 发表于 06-20 16:57 1826次阅读
    NFC功能是什么?<b class='flag-5'>主要有</b>哪些应用?

    工业网关主要有哪些功能?

    和智能化水平。本文将详细解析工业网关的主要功能,以便读者更好地理解和应用。 一、数据采集与上传 工业网关的首要功能之一是数据采集与上传。它能够连接工业现场的各种设备,如PLC、传感器、仪表等,并通过串口/网口(如RS4
    的头像 发表于 06-17 15:19 416次阅读
    工业网关<b class='flag-5'>主要有</b>哪些功能?

    工业控制设备间主要有哪些有线通信威廉希尔官方网站

    介绍。 串行通信威廉希尔官方网站 串行通信威廉希尔官方网站 是一种最基本的有线通信威廉希尔官方网站 ,广泛应用于工业控制领域。它通过一条数据线(TX)和一条接收线(RX)实现数据的发送和接收。串行通信威廉希尔官方网站 主要有以下几种: 1.1 RS-232:RS-232是一种标准的
    的头像 发表于 06-11 10:51 705次阅读

    无损检测的目的主要有哪些内容

    、电力、机械制造、建筑、医疗等。无损检测的目的主要包括以下几个方面: 保证产品质量 无损检测威廉希尔官方网站 可以有效地检测出材料或产品中的缺陷,如裂纹、孔洞、夹杂、变形等,从而确保产品质量。通过对产品进行无损检测,可以及时发现问题并采取相应的措施进行整改
    的头像 发表于 05-24 15:12 848次阅读

    双绞线连接方式主要有哪几种

    双绞线的连接方式主要有以下几种: 直插式连接(RJ45):这是最常见的连接方法,通过插入RJ45接头(也叫网线头)将双绞线连接到设备端口,如计算机、交换机、路由器等。这种方式使两端的线序相同,适用于
    的头像 发表于 05-10 10:49 1748次阅读

    边缘计算网关主要有哪些功能?

    数据处理效率以及减轻云数据中心压力等方面发挥了重要作用。接下来,我们将详细探讨边缘计算网关的主要功能。 一、数据采集与处理 边缘计算网关具备
    的头像 发表于 04-16 15:24 871次阅读

    在PCB板上加入晶振的原因主要有哪些?

    一定的时序和频率要求。这就需要晶振这一重要的电子元件来提供稳定的时钟信号。 在PCB板上加入晶振的原因主要有以下几点: 1.提供稳定的时钟信号:晶振可以产生稳定、准确的振荡信号,为电子设备提供稳定
    发表于 04-09 17:06

    X安规电容和CBB电容主要有哪些区别呢?

    X安规电容主要指X1和X2安规电容器,而CBB电容的种类就更多了,主要有CBB21/CBB22、MPB盒装电容、CBB81谐振电容、MMKP82双面金属化电容等。
    的头像 发表于 04-08 11:18 1624次阅读

    多路复用威廉希尔官方网站 主要有几种类型?它们各有什么特点?

    多路复用威廉希尔官方网站 主要有几种类型?它们各有什么特点? 多路复用威廉希尔官方网站 主要有以下几种类型:进程多路复用、I/O多路复用、信号驱动I/O和异步I/O。每种类型都有其特点和应用场景。 1. 进程多路复用:进程
    的头像 发表于 03-28 15:36 2907次阅读

    编码器的类型主要有哪几种?

    编码器类型主要有两种:绝对编码器和增量编码器。
    的头像 发表于 02-20 18:14 1996次阅读

    请问TC234和TC275主要有哪些区别?

    TC234 和TC275主要有哪些区别?
    发表于 02-20 06:30