0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AWS数据湖怎么脱颖而出的

汽车玩家 来源:大数据在线 作者:大数据在线 2020-04-12 19:34 次阅读

数据湖,是一个并不新颖却越来越被用户看重的名词。

从2010年Pentaho公司的创始人兼首席威廉希尔官方网站 官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念开始,数据湖十年发展之路可谓是兜兜转转、起起伏伏。在这期间,既有开源厂商们提出的各种营销理念,也有传统存储厂商打造的各类解决方案,更有业界对于数据湖带来的数据沼泽、数据价值探索等问题的深入思考。

时至如今,数据湖虽然经历了各种各样的“挫折”,但是数据湖在数字化时代给用户带来的价值已经愈发清晰。而率先帮助用户走出数据湖价值落地之路的,不是开源厂商,也不是传统存储厂商,恰恰是以AWS为代表的云服务提供商们。

这背后有何缘由?这一切还得从数据湖的本质谈起。

数据湖的价值凸显

维基百科对于数据湖的定义是:“Data Lake是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据、非结构化数据以及二进制数据等。”

数据湖最大的价值在于可以帮助用户梳理清楚从数据存储、数据汇聚到数据挖掘这些过程。比如,相比于数据仓库对于数据协作有规则限制,数据湖对于数据写入没有限制,可以更容易的收集数据;数据湖可以汇聚来自各种数据源的数据,并进行数据拉通,从而消除数据孤岛的问题;而数据湖中存放着最原始的数据则更加有利于数据价值的挖掘。

千万不要小看数据湖所能完成的这些数据处理过程。这些都是用户们在数字化时代发挥数据价值所必不可少的基础。时至今日,数据其实已经成为数字化时代的一种最为重要的生产资料,数据正在加速重塑企业与组织的生产、经营、销售、服务等流程,就如AWS首席云计算企业战略顾问张侠所指出的:“在当今企业中,数据流就是企业的血液流,企业的数字化转型很重要的一个方向就是把数字化的资产好好利用起来。”

数据湖成为大势所趋

与此同时,数据湖在过去十年并不缺乏产品与解决方案,为何数据湖失败的案例依然不少,为何又是以AWS为代表的云服务提供商们率先走在数据湖解决方案落地的最前沿?

事实上,作为很早推动数据湖服务的公司,AWS的数据湖解决方案成功并不是偶然。首先,Amazon作为全球最大的互联网公司之一,其数据规模、数据复杂度、数据处理难度、数据价值挖掘在业界无出其右,由于背靠Amazon,AWS数据湖解决方案天然就得到了不断的历练,比如Amazon内部一个数据湖部署--Galaxy,就存储了超过50PB的数据量,每天进行着多达60万的数据分析任务。

其次,AWS数据湖在产品威廉希尔官方网站 层面进行了持续的提升与完善,其产品组合的成熟度和丰富程度走在了业界的前列。举个例子,大部分数据湖解决方案都是基于开源Hadoop的,但之前Hadoop集群的计算和存储紧耦合架构,使得数据湖架构的扩展成本高、效率低;而AWS在构建数据湖解决方案时候,很重要的一个选择就是让计算与存储分离,在存储上采用S3对象存储服务,从而让数据湖解决方案可以更好地应用在用户业务领域。

另外,AWS作为云计算市场的龙头,其公有云的环境也有利于数据湖解决方案的部署,在过去十年中为多个不同行业、不同规模的用户提供相关的数据湖服务,积累了丰富的用户实践经验。

在产品、解决方案以及用户实践上的领先其实就是AWS在数据湖领域脱颖而出的秘诀所在。

十年之后,AWS描绘出数据湖全景图

从十年前的概念到如今被越来越多行业用户所认同和采用,数据湖如今不再只是一个名词,它更代表着一种进化,它是过去十年数字化驱动下,用户在数据层面的需求、威廉希尔官方网站 、产品不断进化的一个缩影。

过去十年移动化、社交化带来了数据指数级增长、数据来源广泛化、数据类型多元化,而像5G物联网、边缘计算的兴起,只会加剧数据应用的趋势,并且会让现代数据应用的复杂性进一步提升,这恰恰反映出用户过去十年对数据应用的需求不断驱动着数据湖走向落地。

在威廉希尔官方网站 层面来看,云计算、大数据以及人工智能具备天然融合在一起的属性,云计算无疑是过去十年对整个IT产业界带来最大变革的威廉希尔官方网站 ,它的弹性、灵活为数据湖带来了坚实的基础;而人工智能在过去几年取得突破性的发展,使之成为驱动数据湖发展的最大驱动力之一。

而过去十年也是数据湖产品与解决方案不断走向成熟的十年。像AWS这样的供应商已经逐步打造出非常全面与完善的数据湖解决方案,可以涵盖从数据收集、汇聚到分析、应用、可视化等方方面面。“数据湖从2014年进入了发展的第二个阶段。以AWS为例,围绕数据湖相关的威廉希尔官方网站 、产品已经基本成熟。”张侠如是说。

根据介绍,AWS数据湖平台包括了数据仓库、大数据处理、交互查询、运营分析、数据交换、可视化、实时分析、推荐、预测分析。事实上,AWS这种全面的数据湖生态完整覆盖了数据湖的数据收集、存储、分析、应用四个阶段,并且这些产品、工具以及服务彼此之间并不是孤立的,互相配合可以达到更加出色效果,快速、便捷地帮助用户构建起数据湖相关应用。

AWS拥有涵盖全面的数据分析组件

在AWS 数据湖平台中有很多非常出色的组件,可以帮助用户解决数据湖中典型的挑战。比如,Amazon EMR大数据处理组件,可以在AWS上轻松运行Spark、Hadoop、Hive等大数据分析。EMR解决了开源生态集群部署与维护升级繁杂的痛点,这对于用户快速应用数据湖开源产品与工具大有裨益,

而 Amazon Redshift是一款性能优秀、强大、使用简单、全托管的数据仓库服务,可以轻松进行大规模并行处理,支持TB级规模数据的扩展,可以通过Spectrum引起将查询扩展到Amazon S3,与数据湖集成可以进行EB级的数据湖分析。

其他像Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3等都是AWS上深受用户喜欢的产品与服务。张侠认为:“数据湖在云计算时代得以快速发展,它发展到现在已经包含了所有的数据库、数据仓库等服务,是企业数据体系的基础。数据湖其实比国内流行的数据中台更加全面,任何想构建数据中台的企业其实都可以在AWS找到全面的解决方案。”

多款新品落地,AWS加速中国数据湖应用

在中国市场,各个行业用户对于数据湖也是经历了一个从认知到认可的过程。张侠坦言,当前中国市场的数据湖应用依然处于早期阶段,整个市场有着非常大的潜力。

中国数据湖市场之所以是一个重要且广阔的市场,无外乎三点:

首先,中国对于数字经济的重视程度超乎想象,从国家政策还是企业自身都对于发展数字经济有着广泛的共识,数字经济加速推动了各个行业的数字化进程。根据IDC《数据时代2025》白皮书预测,中国数据量预计在未来7年将每年平均增长30%,位居世界第一,随之而来的就是对于数据存储、汇聚、分析越来越多的需求。

其次,在经历了多年的“企业上云”之后,各行各业对于云计算的认知和认可已经形成,在企业加速上云这个过程中,数据湖作为与云计算天然紧密联系在一起的应用,其实已经具备了非常好的基础设施环境,用户在上云之后逐步采用数据湖服务也是顺势而为。

再次,中国市场在5G、人工智能、物联网等领域的步伐快速,尤其是5G商用所带来的云计算、通信、大数据、人工智能等多项威廉希尔官方网站 走向融合,未来在各个行业中会催生出更多新的现代化数据应用场景,数据湖在这个过程中将会起到重要的支撑作用。

AWS在数据湖领域深厚的积累有助于推动中国数据湖应用落地

据悉,针对中国市场,AWS近期在中国两个区域陆续上线了多款重磅级的新产品与新服务,其中就包括AWS Glue和Amazon Athena两款跟数据湖相关的服务。张侠透露:“AWS中国之后会陆续上线数据湖相关的产品与服务。随着越来越多服务落地中国,中国区用户可以在短短几天之内完成数据湖的建立工作。”

例如,AWS Glue是数据湖应用中一款非常重要的服务,它可以帮助用户建立起无服务器架构的数据目录和ETL服务,自动发现数据并存储Schema,与AWS上运行的Aurora、RDS、Redshift、S3和数据库引擎天然集成,这将给用户在使用数据湖带来巨大好处。举个例子,用户之前想将数据导入Redshift云数据仓库,之前需要自己写ETL管道,非常不方便,如今有了AWS Glue能够快速完成数据的抽取、转换和加载。

“中国市场的确是到了该好好研究与使用数据湖的阶段了,尤其是5G、边缘计算应用上来之后,在数据层面更应该匹配走数据湖这条路。”张侠最后表示道。

总体而言,数据湖一晃已经走过了十年,从一个概念逐步走向落地。在这十年中,以AWS为代表云服务提供商们真是洞悉了用户在数据湖上的需求,并且围绕数据湖打造出来的一系列全面的产品体系,使得数据湖真正走出了一条价值之路。

十年意味着一个阶段的结束,也预示着下一个阶段的开启。数据湖在未来会有更大的舞台。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AWS
    AWS
    +关注

    关注

    0

    文章

    432

    浏览量

    24363
收藏 人收藏

    评论

    相关推荐

    云知声近期斩获多项年度大奖

    在科技迅猛发展的当下,人工智能(AI)已成为推动各行业革新的核心动力。云知声,以其卓越的威廉希尔官方网站 实力和敏锐的市场洞察,在AI领域中脱颖而出,成为行业的领航者。近日,云知声在多个重量级奖项评选中脱颖而出,斩获多项年度大奖,再次证明了其在AI威廉希尔官方网站 创新领域的领先地位。
    的头像 发表于 12-24 10:26 118次阅读

    喜报!全国首批!赛思成功获选国家级专精特新重点“小巨人”企业!

    万里挑一!赛思从16000多家专精特新“小巨人”企业中脱颖而出,荣获国家级专精特新“重点小巨人企业。
    的头像 发表于 12-05 11:46 349次阅读
    喜报!全国首批!赛思成功获选国家级专精特新重点“小巨人”企业!

    重磅!赛思荣膺投资家网“2024年度最具投资价值企业TOP100”!

    入选率仅2%!赛思凭借在时钟同步及混合数模领域的卓绝表现,从4600余家企业中脱颖而出
    的头像 发表于 12-03 18:52 189次阅读
    重磅!赛思荣膺投资家网“2024年度最具投资价值企业TOP100”!

    尼尔森数据背后:Shokz韶音如何在全球运动耳机市场脱颖而出

    全球市场调研机构尼尔森,近日在巴黎马拉松期间发布了Sport2024调研报告。数据表明,68%的消费者在跑步时有听音乐的习惯,而在消费者跑步时最常佩戴的耳机品牌中,苹果、韶音等榜上有名。其中,定位
    的头像 发表于 11-18 14:53 262次阅读
    尼尔森<b class='flag-5'>数据</b>背后:Shokz韶音如何在全球运动耳机市场<b class='flag-5'>脱颖而出</b>

    国产MCU厂商,靠什么从内卷中脱颖而出

    的竞争日益激烈,价格战已成常态,MCU市场亦不例外。SIA数据显示,中国MCU市场占全球25%左右。尽管市场规模庞大,但国内MCU厂商的产品主要集中在中低端市场,同质
    的头像 发表于 10-22 16:20 318次阅读
    国产MCU厂商,靠什么从内卷中<b class='flag-5'>脱颖而出</b>?

    三星贴片电容CL10B104KA85PN 0603/100nF/25Vdc/X7R --芯引力产品中心

    芯引力贴片电容 电子元器件一站式配单 助您SMT 贴片加工的产品脱颖而出
    的头像 发表于 08-07 16:37 249次阅读

    美光发布全新数据中心SSD

    近日,全球领先的存储解决方案提供商美光科技股份有限公司宣布了一项重大创新成果——美光9550 NVMe™ SSD的正式推出。这款专为数据中心设计的高端存储产品,以业界领先的性能表现脱颖而出,同时在处理AI工作负载时展现出非凡的能效与稳定性。
    的头像 发表于 07-30 16:41 645次阅读

    NAS设备铁威马F4-424是如何从市场中脱颖而出

    简便又性能卓越的家用NAS,成为了众多家庭面临的难题。今天,我们将聚焦于铁威马F4-424这款NAS设备,探讨它是如何凭借其出色的性能与易用性,在家用NAS市场中脱颖而出,成为家庭用户的理想之选。
    的头像 发表于 07-18 17:28 778次阅读

    运动相机为什么会脱颖而出

      01 运动相机为什么会脱颖而出 与传统相机或手机拍摄相比,运动相机具备防水和耐冲击的特性,适合在户外活动中使用。运动相机通常具有的广角镜头、高分辨率和高帧率的功能,可以拍摄的范围更广,画面也更
    的头像 发表于 06-27 16:01 656次阅读
    运动相机为什么会<b class='flag-5'>脱颖而出</b>

    通过在AWS发布命令,让io的电平状态上报给AWS,为什么上传的同时一模一样的数据在串口调试助手打印?

    我在平台上发布命令4.png 通过回调函数判断是否上报数据1.png 判断io的状态并把数据上传到AWS2.png 但为什么上传的同时一模一样的数据在串口调试助手打印? : esp32
    发表于 06-20 06:09

    新一代驱动器产品,PI SCALE-iFlex™ XLT如何脱颖而出

    即插即用!作为新一代驱动器产品,看SCALE-iFlex™ XLT如何以其独特的设计和出色的性能,在市场中脱颖而出! 在电力电子领域,高效、紧凑且安全的门极驱动器产品设计一直是研发的焦点。随着储能
    的头像 发表于 05-27 14:55 314次阅读
    新一代驱动器产品,PI SCALE-iFlex™ XLT如何<b class='flag-5'>脱颖而出</b>?

    什么是数据数据数据仓库有什么区别?

    从本质上说,数据就是一个信息资源库。人们常常将数据数据仓库混为一谈,但两者在架构和满足的业务需求上都不一样。尤其是,随着社交媒体
    的头像 发表于 05-20 12:38 613次阅读
    什么是<b class='flag-5'>数据</b><b class='flag-5'>湖</b>?<b class='flag-5'>数据</b><b class='flag-5'>湖</b>和<b class='flag-5'>数据</b>仓库有什么区别?

    慧视图像处理板 究竟凭什么脱颖而出

    市面上的图像处理板有很多,如何通过分析获得自己满意的产品,从而减少自身项目的开发时间,是一个重要的过程。如果你有图像处理板的需要,那么这篇短文你应该往下看一看!经验丰富成都慧视光电多年来一直致力于图像处理板的开发应用,有着超十年开发经验的团队成员,能够快速进行软硬件的模块化集成,定制出符合行业需求的图像处理板。曾服务过安防巡检、铁路、空港、高校研究院、事业研
    的头像 发表于 04-30 08:29 437次阅读
    慧视图像处理板  究竟凭什么<b class='flag-5'>脱颖而出</b>?

    stm32 AWS云连接怎么使用?

    stm32 AWS云连接怎么使用,官方的扩展包看不明白
    发表于 04-01 07:21

    解锁AI时代的利器——讯飞AI鼠标AM30助你在AI时代脱颖

    解锁AI时代的利器——讯飞AI鼠标AM30助你在AI时代脱颖而出 随着AI时代的到来,人们对于人工智能的需求越来越迫切。 在这个竞争激烈的时代里,如果你不懂得使用AI威廉希尔官方网站 ,很有可能被淘汰出局。 而讯
    的头像 发表于 03-25 13:37 557次阅读
    解锁AI时代的利器——讯飞AI鼠标AM30助你在AI时代<b class='flag-5'>脱颖</b>