0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA为全球领先的数据分析平台Apache Spark提速

西西 来源:厂商供稿 作者:NVIDIA 2020-05-15 15:48 次阅读

开源社区通过对NVIDIA GPU的原生支持加速Spark 3.0;

实现数百TB数据的飞速ETL和SQL处理;

Adobe在Databricks上使用Spark 3.0将模型训练速度提高7倍

加利福尼亚州圣克拉拉市 - GTC 2020大会 - 2020年5月14日 – NVIDIA于今日宣布其正在与开源社区合作,为Apache Spark 3.0带来端到端的GPU加速。Apache Spark 3.0是一个热门的分析引擎,被全球范围内超过50万名数据科学家用于大数据处理。

随着Spark 3.0预计将于春季晚些时候发布,数据科学家和机器学习工程师将首次能够把革命性的GPU加速应用于普遍使用SQL数据库操作进行的ETL(提取、转换和加载)数据处理工作负载中。

此外,他们还将首次能够在同一Spark集群上处理AI模型训练任务,而无需将工作负载作为单独流程在单独的基础架构上运行。这样就可以对整个数据科学的处理流程进行高性能数据分析,对从数据湖到模型训练所涉及的数十、乃至数千TB的数据进行加速,而且无需对已被应用于本地和云端Spark应用程序的现有代码进行修改。

NVIDIA企业计算主管Manuvir Das表示:“数据分析是当今企业和研究者所面临最大的高性能计算挑战。从ETL到训练再到推理,整个Spark 3.0 方案的原生GPU加速为用户提供了最终将大数据潜力与AI性能相连所需的性能和规模。”

作为NVIDIA的战略AI合作伙伴,Adobe是最早在Databricks上运行Spark 3.0预览版的公司之一。Adobe已在Adobe Experience Cloud中使用GPU加速数据分析威廉希尔官方网站 进行产品开发,并为各项推进数字化业务进程的功能提供支持。在初步测试中其已将性能提高了7倍,并节省了90%的成本。

性能提升后的Spark 3.0让科学家能够训练包含有更大数据集的模型,并增加反复训练模型的频率,从而提高模型的精度。现在,数据科学家每天可以处理数TB的新数据,这对于需要为在线推荐系统提供支持或分析新研究数据的数据科学家们而言至关重要。此外,处理速度的加快,减少了交付结果所需的硬件资源,从而节省了大量成本。

Adob机器学习高级总监William Yan表示:“相比于在CPU上运行Spark,NVIDIA加速的Spark 3.0性能速度得到了大幅提高。伴随着GPU性能的飞跃性提升,也将为我们全套Adobe Experience Cloud应用中AI功能的提升带来新的可能性。”

Databricks和NVIDIA为Spark提速

Apache Spark最初是由Databricks的创始人创建。Databricks的云端统一数据分析平台每天在一百多万台虚拟机上运行。NVIDIA与Databricks已开展合作,使用专为Databricks开发的RAPIDSTM软件套件优化Spark,将GPU加速应用于在Databricks上运行的医疗、金融、零售等众多行业的数据科学和机器学习工作负载中。

Apache Spark最初的创建者兼Databricks首席威廉希尔官方网站 员Matei Zaharia表示:“我们与NVIDIA开展了长期合作,用专为Apache Spark 3.0和Databricks开发的RAPIDS相关优化来提高性能,使得像Adobe这样的我们两家公司共同的客户能够得以受益。我们所作出的这些努力加快了数据处理流程、模型训练和评分的速度,直接为我们的数据工程师和数据科学家社区带来更多的突破和洞见。”

NVIDIA GPU加速Spark中的ETL和数据传输

NVIDIA正在提供一种用于Apache Spark的全新开源RAPIDS加速器,帮助数据科学家提高其数据流程的端到端性能。该加速器能够将之前需要在CPU上运行的功能,转到GPU上运行,以发挥GPU的性能:

·在无需更改任何代码的情况下显著提高Spark SQL和DataFrame的运行性能,从而加速Spark中的ETL数据流程。

·无需独立的机器学习和深度学习集群,即可在相同的基础架构上加速数据准备和模型训练。

·加速Spark分布式集群中各节点之间的数据传输性能。这些资源库使用UCF Consortium 的开源UCX(Unified Communication X)框架,并通过使数据直接在GPU内存之间移动来最大程度地减少延迟。

Apache Software Foundation 上现已提供Spark 3.0的预览版。该产品预计将在未来几个月内全面上市。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4985

    浏览量

    103027
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4735

    浏览量

    128924
  • 数据分析
    +关注

    关注

    2

    文章

    1447

    浏览量

    34056
  • 大数据
    +关注

    关注

    64

    文章

    8885

    浏览量

    137427
  • SPARK
    +关注

    关注

    1

    文章

    105

    浏览量

    19903
收藏 人收藏

    评论

    相关推荐

    NVIDIA助力百度提升数据分析效能

    在现代商业环境中,数据分析已然成为企业获取成功的关键所在。长期以来,百度广告数据团队始终面临着极为复杂的数据分析挑战,其需要为逾千名用户提供在线广告业务分析服务,而这些用户涵盖策略工程
    的头像 发表于 11-20 10:06 203次阅读

    eda与传统数据分析的区别

    进行初步的探索和理解,发现数据中潜在的模式、关系、异常值等,后续的分析和建模提供线索和基础。 方法论 :EDA强调数据的真实分布和可视化,使用多种图表和可视化工具来展示
    的头像 发表于 11-13 10:52 317次阅读

    raid 在大数据分析中的应用

    RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析
    的头像 发表于 11-12 09:44 246次阅读

    云计算在大数据分析中的应用

    和处理大规模的数据集。通过云计算平台,用户可以快速构建数据仓库,将海量数据进行存储、管理和分析。这种能力使得企业能够高效地处理PB级别的
    的头像 发表于 10-24 09:18 448次阅读

    IP 地址大数据分析如何进行网络优化?

    一、大数据分析在网络优化中的作用 1.流量分析数据分析可以对网络中的流量进行实时监测和分析,了解网络的使用情况和流量趋势。通过对流量数据
    的头像 发表于 10-09 15:32 234次阅读
    IP 地址大<b class='flag-5'>数据分析</b>如何进行网络优化?

    数据分析除了spss还有什么

    数据分析是当今世界中一个非常重要的领域,它涉及到从大量数据中提取有用信息、发现模式和趋势,并为决策提供支持。SPSS(Statistical Package for the Social
    的头像 发表于 07-05 15:01 619次阅读

    数据分析的工具有哪些

    数据分析是一个涉及收集、处理、分析和解释数据以得出有意义见解的过程。在这个过程中,使用正确的工具至关重要。以下是一些主要的数据分析工具,以及它们的功能和用途的介绍。 Excel Exc
    的头像 发表于 07-05 14:54 856次阅读

    数据分析有哪些分析方法

    数据分析是一种重要的技能,它可以帮助我们从大量的数据中提取有价值的信息,从而做出更明智的决策。在这篇文章中,我们将介绍数据分析的各种方法,包括描述性分析、诊断性
    的头像 发表于 07-05 14:51 580次阅读

    机器学习在数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据中学习规律,企业和组织提
    的头像 发表于 07-02 11:22 619次阅读

    Spark基于DPU的Native引擎算子卸载方案

    1.背景介绍 Apache Spark(以下简称Spark)是一个开源的分布式计算框架,由UC Berkeley AMP Lab开发,可用于批处理、交互式查询(Spark SQL)、实
    的头像 发表于 06-28 17:12 579次阅读
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸载方案

    数据分析平台网站

    数据分析平台是一种用于处理和分析大规模数据集的系统,旨在从海量数据中提取有价值的信息和洞察。以下是大
    的头像 发表于 06-28 15:46 666次阅读

    求助,关于AD采集到的数据分析问题

    问题描述:使用AD采集一个10Hz到2MHz的脉冲,脉冲底部可能大于零,由采集到的数据分析出该脉冲的上升时间,幅值和占空比。 备注:在分析的时候已经知道脉冲的频率,精度2X10^-5. 在
    发表于 05-09 07:40

    态势数据分析系统软件

    智慧华盛恒辉态势分析软件系统的功能描述、部署环境、界面使用、威廉希尔官方网站 支持及一些常见问题及其解决办法等。数据态势分析软件系统的管理人员和使用人员提供说明。 智慧华盛恒辉态势
    的头像 发表于 04-22 11:36 444次阅读

    RDMA威廉希尔官方网站 在Apache Spark中的应用

    、电信、零售、医疗保健还是物联网,Spark的应用几乎遍及所有需要处理海量数据和复杂计算的领域。它的快速、易用和通用性,使得数据科学家和工程师能够轻松实现数据挖掘、
    的头像 发表于 03-25 18:13 1538次阅读
    RDMA威廉希尔官方网站
在<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中的应用

    基于DPU和HADOS-RACE加速Spark 3.x

    背景简介 Apache Spark(下文简称Spark)是一种开源集群计算引擎,支持批/流计算、SQL分析、机器学习、图计算等计算范式,以其强大的容错能力、可扩展性、函数式API、多语
    的头像 发表于 03-25 18:12 1349次阅读
    基于DPU和HADOS-RACE加速<b class='flag-5'>Spark</b> 3.x