[问答]

ARMv7系列芯片算法的NEON优化耗时异常的原因是什么

问答对人有帮助，内容完整，我也想知道答案 0 目前正在做ARMv7 系列芯片算法的NEON优化，发现一个耗时异常的地方，现象描述如下：首先主循环里会处理三类数据，三类数据分开存放在DDR上，每次循环分别处理三类数据的8个uchar数据，存储数据也是分三类数据地址分开存放，我分别定义三个uint8*8的变量用来暂时存储处理的结果，在使用vst1_u8从寄存器存储数据到DDR的时候，只要我存储处理过后的三路数据中的一路，耗时就会增加到59ms，这时候不管是否存储另外两路数据，耗时都是59ms。如果我从DDR直接加载数据，给该变量赋值，不处理直接写到DDR，统计总循环的耗时会降低20ms，同样的我存储其他变量的数据到DDR耗时也会下降20ms，只要一存储处理过后的数据中的一路，总循环耗时就突增到59ms，想不明白，都是从d寄存器或者q寄存器写数据到DDR，为什么耗时会差这么多，只要存储处理过的数据耗时就上升到59ms。该算法原来的耗时是180ms，现在优化到59ms，想弄清楚耗时增长的原因？是否有别的优化方法进一步降低耗时？（注：由于该算法的特性，算法中使用寄存器数量已经超过的ARMv7 NEON中的寄存器数量。） 0
2022-8-16 15:22:12　　评论淘帖0 邀请回答您可以邀请以下用户，快速回答问题 × hgimtk 该类别下有 16 个回答。邀请回答 dianzijie5 该类别下有 16 个回答。邀请回答嵌入式-H 该类别下有 16 个回答。邀请回答 hucc 该类别下有 14 个回答。邀请回答舍我其谁84 该类别下有 13 个回答。邀请回答 HCPcry 该类别下有 12 个回答。邀请回答冰箱洗衣机该类别下有 12 个回答。邀请回答学生物的程序猿该类别下有 11 个回答。邀请回答小刘该类别下有 11 个回答。邀请回答 sjjs001 该类别下有 11 个回答。邀请回答 iettke 该类别下有 11 个回答。邀请回答 bigbangboom 该类别下有 10 个回答。邀请回答 YOYOOO 该类别下有 10 个回答。邀请回答 wuli北该类别下有 9 个回答。邀请回答广州洋钒该类别下有 9 个回答。邀请回答 zengweishuai 该类别下有 9 个回答。邀请回答 drakannie 该类别下有 9 个回答。邀请回答 siyugege 该类别下有 9 个回答。邀请回答 ze55me 该类别下有 8 个回答。邀请回答 zhuzb0754 该类别下有 8 个回答。邀请回答举报郝埃连相关推荐 • NEON在armv8(arch64)下如何去使用呢 2894 • 如何使用OMAP3530的NEON指令集进行视频编解码？ 2271 • 请问怎么理解ARMv7的Secure和Non-secure状态 3905 • arm7 armv7 cortexm3它们是什么关系请问？ 4965 • Cortex-A53使用AArch32 Kernel，可以直接使用ARMv7的所支持的CPU吗？ 2173 • 如何解决A40i CPU信息问题？ 1219 • A40i CPU的BogoMIPS值显示57.14这个值正确吗？ 927 • 为什么我买的树莓派2代频率是700mhz？ 1839 • NEON汇编与NEON intrinsics编程的优缺点比较 3625 • 请教dm8168的arm编译器的问题 1160 1个回答

答案对人有帮助，有参考价值 0 因为处理会耗时，当然会比直接存储时间多，计算时间增加了

2022-8-16 15:22:27 评论举报张健