0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据计算框架简介

RG15206629988 来源:行业学习与研究 2023-03-20 11:46 次阅读

一、Hadoop框架

Hadoop是目前世界上应用最广泛的大数据工具。Hadoop具有高容错率,且其硬件价格低,可以使用普通PC服务器(个人理解:普通PC服务器的具体形式包括个人计算机等)构成大数据集群。

Hadoop的Map和Reduce函数(Map和Reduce函数是大数据主要编程模型)的计算模式简洁,且开发人员可以通过多种编程语言编写Map和Reduce函数。Hadoop的生态圈(个人理解:此处的生态圈指可以使用Hadoop的开发工具集合)包含大量算法和组件。

Hadoop的数据吞吐量超过其他大数据计算框架,但速度稍慢于其他大数据计算框架。

二、Storm框架

Storm框架采用的是流计算框架(根据网络资料理解:流计算框架可处理实时且持续进入流计算框架数据的计算),也可被称为实时大数据处理框架,在数据处理延时(根据网络资料理解:数据处理延迟的原因是存储或检索数据包需要时间)方面具有较大优势。

但Storm框架只能进行数据处理,不能进行数据存储,因此,Storm框架需借助Hadoop框架的HDFS(分布式文件系统)存储数据。

Storm框架由Twitter(推特)开发,为开源框架,并托管于GitHub(根据百度百科:GitHub是一个面向开源及私有软件项目的托管平台),Storm框架可被免费使用。Storm框架支持的编程语言包括:Java、Ruby、Python

三、Spark框架

Spark框架包含实时流处理工具,Spark框架没有存储数据功能。Spark框架可以与Hadoop框架集成,代替Hadoop框架的Map和Reduce函数;也可以将Spark框架单独部署集群(根据网络资料理解:部署集群的含义是在集群内的所有电脑或服务器中安装同一应用),但需要借助HDFS等分布式存储系统存储数据。

Spark框架是基于内存的框架,因此,Spark框架的运算速度快,其速度约为Hadoop框架的100倍。

四、Flink框架

(1)与Spark框架相同,Flink框架也是基于内存的实时计算框架。

(2)Flink框架的数据处理速度快于Spark框架的数据处理速度。Flink框架支持毫秒级的流计算,Spark框架支持秒级的流计算。

(3)相比于Spark框架,Flink框架与Hadoop框架具有更好的兼容性。

(4)Flink框架支持API(根据百度百科理解:API一般指应用程序编程接口,可将此处接口理解为服务的传递者。API可使开发人员访问其他系统对外提供的功能接口或服务,且开发人员无需访问该功能接口或服务的源代码或理解该功能接口或服务的内部工作机制细节)接口数量与Spark框架支持API接口数量相近(此句由网络资料总结),但Flink框架对SQL的支持相较于Spark框架对SQL的支持较差。

f5c86d02-c3f1-11ed-bfe3-dac502259ad0.png

图片来源:网络资料

(5)因为Flink框架较新,使用Flink框架的开发人员较少,所以Flink框架的社区活跃度低于Spark框架,即有关Spark框架的问题更容易得到解答。

五、Yarn架构

Yarn架构属于Hadoop2.0的分支。如图一所示,Yarn架构处于HDFS和MapReduce之间。

f5e40e04-c3f1-11ed-bfe3-dac502259ad0.png

图一,图片来源:学堂在线《大数据导论》

Yarn架构主要由ResourceManager、NodeManager、ApplicationMaster(根据网络资料:ApplicationMaster负责与ResourceManager协商资源,并与NodeManager协同来执行和监控Container) 、Container(根据网络资料:Container可被理解为单个节点RAMCPU、磁盘的集合)组件构成。

Yarn架构的结构是master/slave结构(master的中文含义是主人,slave的中文含义是奴隶,master/slave结构即为主从结构)。如图二所示,ResourceManager是master,即主节点;NodeManager是slave,即从节点。

f5f66da6-c3f1-11ed-bfe3-dac502259ad0.png

图二,图片来源:学堂在线《大数据导论》






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • JAVA
    +关注

    关注

    19

    文章

    2969

    浏览量

    104791
  • PC服务器
    +关注

    关注

    0

    文章

    10

    浏览量

    7570
  • 编程语言
    +关注

    关注

    10

    文章

    1945

    浏览量

    34757
  • Hadoop
    +关注

    关注

    1

    文章

    90

    浏览量

    15993
  • HDFS
    +关注

    关注

    1

    文章

    30

    浏览量

    9614

原文标题:大数据相关介绍(21)——大数据计算框架简介

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    [5.1.1]--5-1大数据计算框架简介

    大数据
    jf_75936199
    发布于 :2023年03月14日 01:40:28

    大数据计算框架简介(1)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月13日 18:14:55

    大数据计算框架简介(2)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月13日 18:15:35

    计算大数据处理威廉希尔官方网站 交流

    计算大数据处理威廉希尔官方网站 交流图形图像是数据处理量最大的版块之一,也是当今云计算的重要课题之一,图形图像处理大会给大家带来诸多名家方案,探究大数据
    发表于 09-16 14:18

    【GoKit申请】基于大数据和云计算的环境监测系统

    申请理由:最近刚刚申请了一款物联网的板子,而且项目的基本环境已经搭建完毕了,目前云计算大数据都是潮流,所以现在准备研究下云服务,因为找不到好的支持平台,也就有点进度很慢了,正好这里看到了这个板子
    发表于 11-02 10:47

    大数据运用的威廉希尔官方网站

    大数据开发的重要框架,其核心是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算,因此
    发表于 04-08 16:50

    大数据数据类型

    大数据不仅仅是一个数据,它是大数据集的集合,不能使用传统的计算威廉希尔官方网站 来处理,宏观上来讲,它不仅包括需处理的数据,还包括各种工具、威廉希尔官方网站 和
    发表于 05-11 15:57

    2019国际大数据产业博览会跟大数据一起赛跑大数据应用云计算电子商务

    增长2.3%。国家副***在全国人大二次会议上作***工作报告时说,要设立新兴产业创业创新平台,在新一代移动通信、大数据、云计算、新能源等方面赶超先进,引领未来产业发展。这是“大数据”首次进入
    发表于 10-10 13:55

    DKHadoop大数据开发框架的构成模块

    ,必然要回归到大数据开发所使用的框架! 国内的大数据开发起步较晚于国外,所有关于大数据大开发的各种标准和规则都是采用国外的那一套。国内做大数据
    发表于 10-19 15:12

    DKhadoop大数据平台基础框架方案概述

    也不是特别长。仅以我熟悉的DKhadoop为例给大家分享一些小知识,往对初学者有点小帮助就可以了。大数据平台基础框架是很多初学者必然要掌握的内容,大数据太过抽象,有时候写分享的时候难免感觉写的很多困难
    发表于 10-31 13:58

    大数据应用开发如何入门需要知道这些

    `前几天和三个学计算机专业的学生聊天时聊到了大数据开发方面的话题,他们三个人中,有两个已经进入企业开始工作,另外一个还是大二学生,但已经开设了自己的工作室。他们都是从事程序开发方面工作的。大数据开发
    发表于 11-26 14:49

    大数据计算服务MaxCompute的使用教程

    阿里云大数据计算服务MaxCompute使用教程
    发表于 04-30 07:57

    大数据与云计算介绍

    大数据与云计算相关威廉希尔官方网站 资料,值得拥有大数据与云计算
    发表于 03-24 16:54 0次下载

    基于大数据的流式计算

    流式计算大数据的一种重要计算模式,大数据流式计算已成为研究热点。任务管理是大数据流式
    发表于 11-22 17:34 1次下载
    基于<b class='flag-5'>大数据</b>的流式<b class='flag-5'>计算</b>

    计算环境中流行的大数据框架介绍

    在本文中,我们将介绍云计算环境中流行的大数据框架,并确定这些大数据框架的某些属性,并探讨与之相关的一些最大障碍和问题。本文将按资源管理
    的头像 发表于 01-09 11:35 4079次阅读
    云<b class='flag-5'>计算</b>环境中流行的<b class='flag-5'>大数据</b><b class='flag-5'>框架</b>介绍