0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何加速apply函数600倍的技巧

数据分析与开发 来源:kaggle竞赛宝典 作者:杰少 2022-05-12 10:14 次阅读

推荐关注↓

[ 引言 ] 虽然目前dask,cudf等包的出现,使得我们的数据处理大大得到了加速,但是并不是每个人都有比较好的gpu,非常多的朋友仍然还在使用pandas工具包,但有时候真的很无奈,pandas的许多问题我们都需要使用apply函数来进行处理,而apply函数是非常慢的,本文我们就介绍如何加速apply函数600倍的技巧。

实验对比01Apply(Baseline) 我们以Apply为例,原始的Apply函数处理下面这个问题,需要18.4s的时间。
importpandasaspd
importnumpyasnp
df=pd.DataFrame(np.random.randint(0,11,size=(1000000,5)),columns=('a','b','c','d','e'))
deffunc(a,b,c,d,e):
ife==10:
returnc*d
elif(e< 10) and (e>=5):
returnc+d
elife< 5:
        returna+b
%%time
df['new']=df.apply(lambdax:func(x['a'],x['b'],x['c'],x['d'],x['e']),axis=1)
CPUtimes:user17.9s,sys:301ms,total:18.2s
Walltime:18.4s

		
			02Swift加速
											因为处理是并行的,所以我们可以使用Swift进行加速,在使用Swift之后,相同的操作在我的机器上可以提升到7.67s。
			
%%time
#!pipinstallswifter
importswifter
df['new']=df.swifter.apply(lambdax:func(x['a'],x['b'],x['c'],x['d'],x['e']),axis=1)
HBox(children=(HTML(value='DaskApply'),FloatProgress(value=0.0,max=16.0),HTML(value='')))

CPUtimes:user329ms,sys:240ms,total:569ms
Walltime:7.67s

		
			03向量化
											使用Pandas和Numpy的最快方法是将函数向量化。如果我们的操作是可以直接向量化的话,那么我们就尽可能的避免使用:
			
  • for循环;
  • 列表处理;
  • apply等操作
在将上面的问题转化为下面的处理之后,我们的时间缩短为:421 ms。
%%time
df['new']=df['c']*df['d']#defaultcasee==10
mask=df['e']< 10
df.loc[mask,'new']=df['c']+df['d']
mask=df['e']< 5
df.loc[mask,'new']=df['a']+df['b']
CPUtimes:user134ms,sys:149ms,total:283ms
Walltime:421ms

		
			04类别转化+向量化
											我们先将上面的类别转化为int16型,再进行相同的向量化操作,发现时间缩短为:116 ms。
			
forcolin('a','b','c','d'):
df[col]=df[col].astype(np.int16)
%%time
df['new']=df['c']*df['d']#defaultcasee==10
mask=df['e']< 10
df.loc[mask,'new']=df['c']+df['d']
mask=df['e']< 5
df.loc[mask,'new']=df['a']+df['b']
CPUtimes:user71.3ms,sys:42.5ms,total:114ms
Walltime:116ms

		
			
											05转化为values处理
											在能转化为.values的地方尽可能转化为.values,再进行操作。 
			
  • 此处先转化为.values等价于转化为numpy,这样我们的向量化操作会更加快捷。
于是,上面的操作时间又被缩短为:74.9ms。
%%time
df['new']=df['c'].values*df['d'].values#defaultcasee==10
mask=df['e'].values< 10
df.loc[mask,'new']=df['c']+df['d']
mask=df['e'].values< 5
df.loc[mask,'new']=df['a']+df['b']
CPUtimes:user64.5ms,sys:12.5ms,total:77ms
Walltime:74.9ms

		
			

		
			实验汇总
						通过上面的一些小的技巧,我们将简单的Apply函数加速了几百倍,具体的:
			
  • Apply: 18.4 s
  • Apply + Swifter: 7.67 s
  • Pandas vectorizatoin: 421 ms
  • Pandas vectorization + data types: 116 ms
  • Pandas vectorization + values + data types: 74.9ms
参考文献:Do You Use Apply in Pandas? There is a 600x Faster Way

审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SWIFT
    +关注

    关注

    0

    文章

    116

    浏览量

    23806
  • 函数
    +关注

    关注

    3

    文章

    4333

    浏览量

    62696
  • 向量
    +关注

    关注

    0

    文章

    55

    浏览量

    11676

原文标题:Pandas 中 Apply 函数加速百倍的技巧

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用LIS2DW12TR加速度传感器可以计算物体重力方向运动的距离吗

    我先计算静止状态下的物体加速度,判断加速度大于静止的1.01时,开始计时间。通过实时加速度和初始加速度的差值更新速度,通过积分,计算每一段
    发表于 12-12 16:21

    SUMIF函数与SUMIFS函数的区别

    SUMIF函数和SUMIFS函数都是Excel中用于条件求和的函数,它们可以帮助用户根据特定的条件对数据进行求和。尽管它们的基本功能相似,但在使用场景和功能上存在一些差异。以下是对这两个函数
    的头像 发表于 10-30 09:51 1167次阅读

    OPA847输入600Khz,600mv正弦波,放大5,输出在+5v附近出现类似三角波的波形,为什么?

    各位高人,你们好: 我现在用DDS 产生600Khz,600mv正弦波作为OPA847输入,放大5,输出在+5v附近出现类似三角波的波形,换了R114值多次,没用,求高人指点。用TINA仿真完全正常,在板子上就是不输出!!附
    发表于 09-12 07:14

    请问OPA690可以用作5或者10的放大吗?电阻如何选择?

    这是OPA690数据手册中典型电路,我按照其电阻值的设置,焊接了一个电路。由于我们实验室的信号发生器的输出能力不行,输入端的50ohm的电阻会将我的信号幅度拉低,我将其换成600ohm左右的电阻
    发表于 09-12 06:10

    面试常考+1:函数指针与指针函数、数组指针与指针数组

    在嵌入式开发领域,函数指针、指针函数、数组指针和指针数组是一些非常重要但又容易混淆的概念。理解它们的特性和应用场景,对于提升嵌入式程序的效率和质量至关重要。一、指针函数函数指针指针
    的头像 发表于 08-10 08:11 900次阅读
    面试常考+1:<b class='flag-5'>函数</b>指针与指针<b class='flag-5'>函数</b>、数组指针与指针数组

    labview的积分函数用哪个?

    对标准正弦加速度数据求速度,使用了积分函数,但是得到的积分结果不是标准的余弦,请问是为什么
    发表于 05-30 15:13

    PSoC 6 MCUBoot和mbedTLS是否支持加密硬件加速

    。 使用 MCUBoot 验证两个应用程序时,运行时间大约需要五秒钟。 在 README.md 的 \"安全 \"一栏中写道 与软件实现相比,硬件加速加密威廉希尔官方网站 将启动时间缩短了四
    发表于 05-29 08:17

    600W 电源单元600W-ACDC-GEVB数据手册

    电子发烧友网站提供《600W 电源单元600W-ACDC-GEVB数据手册.rar》资料免费下载
    发表于 04-28 17:33 3次下载
    <b class='flag-5'>600</b>W 电源单元<b class='flag-5'>600</b>W-ACDC-GEVB数据手册

    回调函数(callback)是什么?回调函数的实现方法

    回调函数是一种特殊的函数,它作为参数传递给另一个函数,并在被调用函数执行完毕后被调用。回调函数通常用于事件处理、异步编程和处理各种操作系统和
    发表于 03-12 11:46 2977次阅读

    函数指针与回调函数的应用实例

    通常我们说的指针变量是指向一个整型、字符型或数组等变量,而函数指针是指向函数函数指针可以像一般函数一样,用于调用函数、传递参数。
    的头像 发表于 03-07 11:13 409次阅读
    <b class='flag-5'>函数</b>指针与回调<b class='flag-5'>函数</b>的应用实例

    TC264有矩阵库或三角函数加速库吗?

    在 illd 上搜索了很长时间,并使用了 Google 等搜索引擎。我似乎没有找到矩阵库或相关的三角函数库。不过,我倒是找到了一个类似于 atan2 的反正切加速函数
    发表于 03-05 07:47

    内联函数定义 为什么需要内联函数

    inline关键字是C99标准的型关键字,其作用是将函数展开,把函数的代码复制到每一个调用处。
    的头像 发表于 02-19 12:20 552次阅读

    PSOC6支持的屏幕分辨率最大能到600*600吗?

    现在PSOC6支持的屏幕分辨率最大能到600*600吗?
    发表于 02-19 08:24