0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA RAPIDS cuDF加速预处理工作流

NVIDIA英伟达 来源:NVIDIA英伟达 2024-11-19 15:58 次阅读

本文属于《解码 AI》系列栏目,该系列的目的是让威廉希尔官方网站 更加简单易懂,从而解密 AI,同时向 RTX 工作站和 PC 用户展示全新硬件、软件、工具和加速特性。

AI 正帮助各行各业推动创新和提高效率,但要充分发挥其潜力,必须基于海量的高质量数据对各种模型进行训练。数据科学家在准备这类数据方面发挥着关键作用,在专业数据(通常为专有数据)对于增强 AI 功能至关重要的特定领域尤其如此。

为了帮助数据科学家应对日益增长的工作负载需求,NVIDIA 发布了 RAPIDS cuDF 库,以便用户更轻松地处理数据,并且无需更改代码即可加速 pandas 软件库。Pandas 是面向 Python 的一个灵活、功能强大的热门数据分析和处理库。借助 cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。

NVIDIA RTX AI 硬件和威廉希尔官方网站 也可以加速数据处理。这包括强大的 GPU,可提供在各个层面快速高效地加速 AI 所需的计算性能 — 从数据科学工作流到 PC 和工作站上的模型训练和定制。

数据科学的瓶颈

最常用的数据格式是按行和列组织的表格数据。小型数据集可以使用 Excel 等电子表格工具进行管理,但是,包含数千万行的数据集和建模工作流通常依赖于采用了例如 Python 等编程语言的 DataFrame 程序库。

Python 是进行数据分析时的热门选择,主要是因为 pandas 库采用易于使用的应用编程接口(API)。然而,随着数据集的规模不断增长,pandas 在纯 CPU 系统中难以实现理想的处理速度和效率。该库在处理文本密集型数据集时的性能也为人所诟病,而对大语言模型来说,这是一种重要的数据类型。

当数据需求超出 pandas 的能力时,数据科学家会面临两难境地:要么忍受缓慢的处理速度,要么采取复杂且成本高昂的措施,即转而采用更高效但对用户不够友好的工具。

使用 RAPIDS cuDF加速预处理工作流

RAPIDS cuDF 配合 RTX AI PC 和工作站,可为热门的 pandas 软件库提供最高达 100 倍加速

借助 RAPIDS cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。RAPIDS 是一套开源 GPU 加速的 Python 库,旨在改进数据科学和分析工作流。cuDF 是一个 GPU DataFrame 库,可提供类似于 pandas 的 API 来加载、过滤和操作数据。

使用 cuDF 的“pandas 加速器模式”,数据科学家可以在 GPU 上运行现有的 pandas 代码,充分利用强大的并行处理功能,并可放心的将代码在必要时移植到 CPU 上。这种互通性提供了出色、可靠的性能。

最新版本的 cuDF 支持更大规模的数据集和数十亿行的表格文本数据。这样,数据科学家就能够使用 pandas 代码来预处理生成式 AI 的数据。

在 NVIDIA RTX 加持的 AI 工作站

和 PC 上加速数据科学

最近的一项研究表明,57% 的数据科学家使用 PC、台式机或工作站等本地资源来执行数据科学任务。

从 NVIDIA GeForce RTX 4090 GPU 开始,数据科学家可以实现显著的速度提升。随着数据集规模不断增长,处理工作占用更多内存,相比于基于传统 CPU 的解决方案,在工作站中配合使用 cuDF 和 NVIDIA RTX 5880 Ada 架构 GPU,可以将性能提升多达 100 倍。

ea062c2c-9ffd-11ef-93f3-92fbcf53809c.png

y 轴表示两种常见的数据科学操作—“join”和“groupby”,而 x 轴显示运行每项操作所需的时间

数据科学家可以在 NVIDIA AI Workbench 上轻松开始使用 RAPIDS cuDF。利用这个基于容器的免费开发者环境管理器,数据科学家和开发者可以跨 GPU 系统创建、迁移 AI 和数据科学工作负载并进行协作。用户可以从 NVIDIA GitHub 仓库中提供的几个示例项目开始,例如 cuDF AI Workbench 项目。

HP AI Studio 也默认支持 cuDF,这是一个集中式数据科学平台,旨在帮助 AI 开发者将其开发环境从工作站无缝复制到云端。这便于他们创建、开发项目并进行协作,而无需管理多个环境。

在 RTX 加持的 AI PC 和工作站上,cuDF 的优势并不仅限于提升原始性能。还包括:

在强大的 GPU 上进行固定成本的本地开发,并可以无缝复制到本地部署的服务器或云实例,从而节省时间和支出。

加快数据处理以实现更快迭代,以便数据科学家以交互式的速度进行实验、优化并从数据集中产生洞察。

实现更有效的数据处理,以在后续工作流获得更好的模型结果。

数据科学的新时代

随着 AI 和数据科学的不断发展,快速处理和分析大量数据集的能力将成为各行业实现突破的关键差异化因素。无论是开发复杂的机器学习模型、执行复杂的统计分析还是探索生成式 AI,RAPIDS cuDF 都可为新一代数据处理奠定基础。

NVIDIA 正通过增加对最热门的 DataFrame 工具的支持来巩固这一基础,其中包括 Polars,它是增长最快的 Python 库之一,与其他开箱即用的纯 CPU 工具相比,可帮助显著加速数据处理。

Polars 本月宣布推出由 RAPIDS cuDF 提供支持的 Polars GPU 引擎公开测试版。Polars 用户现在可以将本已极快的 DataFrame 库性能提升多达 13 倍。

RTX AI 为未来的工程师创造无限可能

无论在大学数据中心、GeForce RTX 笔记本电脑还是 NVIDIA RTX 工作站上运行,NVIDIA GPU 都可加速学习过程。数据科学领域及其他领域的学生将增强其学习体验,并通过广泛应用于现实世界应用的硬件获得实战经验。

生成式 AI 正在深入改变游戏、视频会议和各种交互体验。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4986

    浏览量

    103066
  • AI
    AI
    +关注

    关注

    87

    文章

    30896

    浏览量

    269108
  • 工作流
    +关注

    关注

    0

    文章

    44

    浏览量

    12425

原文标题:解密 AI 如何加速数据科学工作流

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA助力西门子医疗加速医学影像AI部署

    MONAI 集成现已上线西门子医疗 Digital Marketplace,加速 AI 在临床工作流中的应用落地。
    的头像 发表于 12-06 11:51 296次阅读

    数据科学工作流原理

    数据科学工作流包括数据收集、数据预处理、数据探索与可视化、特征选择与工程、模型选择与训练、模型评估与优化、结果解释与报告、部署与监控等环节。
    的头像 发表于 11-20 10:36 191次阅读

    NVIDIA加速计算引入Polars

    Polars 近日发布了一款由 RAPIDS cuDF 驱动的全新 GPU 引擎,该引擎可将 NVIDIA GPU 上的 Polars 工作流速度最高提速 13 倍,使数据科学家仅在一
    的头像 发表于 11-20 10:03 205次阅读
    将<b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>计算引入Polars

    RAPIDS cuDF将pandas提速近150倍

    NVIDIA GTC 2024 上,NVIDIA 宣布,RAPIDS cuDF 当前已能够为 950 万 pandas 用户带来 GPU 加速
    的头像 发表于 11-20 09:52 179次阅读
    <b class='flag-5'>RAPIDS</b> <b class='flag-5'>cuDF</b>将pandas提速近150倍

    NVIDIA发布全新AI和仿真工具以及工作流

    NVIDIA 在本周于德国慕尼黑举行的机器人学习大会(CoRL)上发布了全新 AI 和仿真工具以及工作流。机器人开发者可以使用这些工具和工作流,大大加快 AI 机器人(包括人形机器人)的开发
    的头像 发表于 11-09 11:52 274次阅读

    全新NVIDIA AI工作流可检测信用卡欺诈交易

    工作流由 AWS 上 的 NVIDIA AI 平台驱动,可帮助金融服务机构节省资金并降低风险。
    的头像 发表于 10-30 11:41 469次阅读

    利用NVIDIA RAPIDS加速DolphinDB Shark平台提升计算性能

    DolphinDB 是一家高性能数据库研发企业,也是 NVIDIA 初创加速计划成员,其开发的产品基于高性能分布式时序数据库,是支持复杂计算和数据分析的实时计算平台,适用于金融、电力、物联网和零售等行业。
    的头像 发表于 09-09 09:57 467次阅读
    利用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>RAPIDS</b><b class='flag-5'>加速</b>DolphinDB Shark平台提升计算性能

    行云流水线 满足你对工作流编排的一切幻想~skr

    的核心组成部分,旨在加速软件交付、提高质量和实现持续改进。流水线的核心是流水线模型,是实现工作流编排,执行的重要基石,一个优秀的流水线模型可以覆盖用户更多的实践场景,按照用户的所思所想支持编排相应的工作流程,通过模型的分层设计,
    的头像 发表于 08-05 13:42 280次阅读

    电子制造商采用NVIDIA AI和 Omniverse助力工厂提高运营效率并降低成本

    。   NVIDIA 宣布,各大电子制造商正在使用 NVIDIA 的威廉希尔官方网站 并借助新的参考工作流将其工厂改造成具有更高自主化水平的设施。该工作流结合了
    的头像 发表于 06-04 10:22 613次阅读

    信号的预处理包括哪些环节

    信号预处理是信号处理的一个重要环节,它对信号进行一系列的操作,以便于后续的分析和处理。信号预处理的目的是提高信号的质量,减少噪声,保留有用的信息,以及满足后续
    的头像 发表于 06-03 10:35 3023次阅读

    MathWorks 与 NVIDIA 联手加速医疗威廉希尔官方网站 领域中软件定义工作流的开发

    到 GPU 加速NVIDIA Holoscan 算子中以进行实时数据处理和推断,从而加速数据分析和可视化应用程序的开发与部署。 医疗设
    的头像 发表于 05-17 10:36 368次阅读
    MathWorks 与 <b class='flag-5'>NVIDIA</b> 联手<b class='flag-5'>加速</b>医疗威廉希尔官方网站
领域中软件定义<b class='flag-5'>工作流</b>的开发

    MathWorks与NVIDIA携手革新医疗威廉希尔官方网站 工作流

    在医疗科技领域,软件定义工作流正迎来新的突破。全球知名的数学计算软件巨头MathWorks与图形处理器领导者NVIDIA近日宣布达成深度合作,将MATLAB®软件成功集成至NVIDIA
    的头像 发表于 05-11 10:17 378次阅读

    MathWorks联手NVIDIA加速医疗威廉希尔官方网站 领域中软件定义工作流的开发

    先的数学计算软件开发商 MathWorks 宣布,MATLAB 已成功集成到 NVIDIA Holoscan 平台。
    的头像 发表于 05-09 11:45 1767次阅读
    MathWorks联手<b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>医疗威廉希尔官方网站
领域中软件定义<b class='flag-5'>工作流</b>的开发

    全新NVIDIA Omniverse Cloud API有何亮点?

    NVIDIA Omniverse Cloud API 使开发者能够将 Omniverse 威廉希尔官方网站 集成到其设计与仿真工具和工作流中。
    的头像 发表于 03-20 13:42 475次阅读

    NVIDIA宣布将以API形式提供Omniverse™ Cloud

    NVIDIA Omniverse Cloud API 使开发者能够将 Omniverse 威廉希尔官方网站 集成到其设计与仿真工具和工作流中。
    的头像 发表于 03-20 09:45 463次阅读