完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
|
|
相关推荐
1个回答
|
|
今天一朋友咨询我AI芯片怎么样?我是搞软件的,历来计算机系专业学生里搞软件的不懂硬件,但是要聊到AI芯片,它真的很简单,哈哈。
1、什么是人工智能(AI)芯片? 广义上讲,能运行AI算法的芯片都叫AI芯片。目前通用的CPU、GPU都能执行AI算法,只是效率不同的问题。但狭义上讲一般将AI芯片定义为“专门针对AI算法做了特殊加速设计的芯片”。 2、AI芯片的主要用处? 目前语音识别、自然语言处理、图像处理等领域,大多使用AI算法,如果能用芯片加速将大大 提高效率。如手机里的指纹解锁、面部识别应用等。 3、AI芯片是不是比CPU要难以设计? 恰恰相反,AI芯片很容易实现,因为AI芯片要完成的任务,绝大多是是矩阵或向量的乘法、加法,然后配合一些除法、指数等算法。AI算法在图像识别等领域,常用的是CNN卷积网络,一个成熟的AI算法,就是大量的卷积、残差网络、全连接等类型的计算,本质是乘法和加法。如果确定了具体的输入图形尺寸,那么总的乘法加法计算次数是确定的。在神经网络的训练过程中,用到的后向传播算法,也可以拆解为乘法和加法。 AI芯片可以理解为一个快速计算乘法和加法的计算器,而CPU要处理和运行非常复杂的指令集,难度比AI芯片大很多。CPU与GPU并不是AI专用芯片,为了实现其他功能,内部有大量其他逻辑,这些逻辑对于目前的AI算法来说是完全用不上的,自然造成CPU与GPU并不能达到最优的性价比。 4、在AI任务中,AI芯片到底有多大优势? 以4GHz 128bit的POWER8的CPU为例,假设是处理16bit的数据,该CPU理论上每秒可以完成16X4G=64G次。再以大名鼎鼎的谷歌的TPU1为例,主频为700M Hz,有256X256=64K个乘加单元,每个时间单元可同时执行一个乘法和一个加法。那就是128K个操作。该YPU论述每秒可完成=128K X 700MHz=89600G=大约90T次。 可以看出在AI算法处理上,AI芯片比CPU快1000倍。如果训练一个模型,TPU处理1个小时,放在CPU上则要41天。 5、AI芯片怎么用? 如果是电脑的话,这个东西直接插在 SATA硬盘接口上,如下图。手机的话,也是一样焊在主板上,手机上主要用于图像处理,如AI美颜、人脸识别等任务,如果系统设计得好的话,AI芯片的存储模块可以大大减少,直接调用摄像头底层存储数据,留出来的空间可以增加更多的计算单元。 6、国内寒武纪AI芯片怎么样? 国内寒武纪成为名副其实的AI芯片设计领域的独角兽,受到投资界的追捧。寒武纪的NPU,也是专门针对神经网络的,与谷歌的TPU类似。在《DianNao: A Small-Footprint High-Throughput Accelerator》一文中提到,DianNao的内部结构如下。分为三个部分,NFU-1,NFU-2,NFU-3. NFU-1全是乘法单元。16X16=256个乘法器。这些乘法器同时计算,也就是说,一个周期可以执行256个乘法。 NFU-2是加法树。16个。每个加法树是按照8-4-2-1这样组成的结构。每个加法数有15个加法器。 NFU-3是激活单元。16个。看起来也不复杂,但是因为是ASIC,少了许多不必要的逻辑功能,所以速度就是快,功耗就是低,效果就是好。 这种架构,只能适用特定的算法类型,比如深度学习(CNN,DNN,RNN)等。但是,深度学习只是机器学习中的某一类,整个机器学习,有很多其他种类的算法,和深度学习的不太一样,甚至经常用到除法等计算类型。这些算法,目前的应用范围也很广。为了加快常用机器学习算法的运算,寒武纪后续又设计出专门针对这些算法的处理器方案:PuDianNao.PuDianNao,内部实现了7种常用的机器学习算法:k-means, k-nearest neighbors , naive bayes , support vector machine , linear regression , and DNN。 7、AI芯片也像CPU一样有指令集吗? 有,寒武纪就搞出一个Cambricon指令集架构。为了神经网络计算加速而设计的。但是不要高估指令集的作用,指令集这个东西是谁的市场大,谁就掌握绝对话语权,想当年英特尔搞X86指令集,市面上还有很多比X86更好的指令集,全都挂了,因为Intel绑定了微软,X86指令集向前兼容是个大杀器啊,古老程序在最新的CPU和windows系统上都可以兼容运行,一下子奠定了市场的基石。AI芯片的指令集想要成为行业的标准,那得靠市场拼杀才能成功,不是简简单单比较一下性能就能成功的。 8、谷歌的TPU 怎么样? 谷歌在《In-Datacenter Performance Analysis of a Tensor Processing Unit》中披露了第一代TPU的架构以及性能。根据新闻报道,2017年发布的第二代TPU芯片,第二代TPU包括了四个芯片,每秒可处理180万亿次浮点运算;如果将64个TPU组合到一起,升级为所谓的TPU Pods,则可提供大约11500万亿次浮点运算能力。 9、最后的尾巴 不要高估AI芯片的作用,就算在AI芯片领域国内企业能“弯道超车”超过谷歌等,但AI芯片替代不了CPU的作用,CPU才是芯片中的皇冠,AI芯片只是配角而已。另外,AI算法再过几十年后还是不是神经网络这个样子,还不好说,也就是现在搞出的AI芯片,过段时间后随着软件算法的变化,有可能全部都不能用了。 |
|
|
|
只有小组成员才能发言,加入小组>>
3871个成员聚集在这个小组
加入小组3102 浏览 0 评论
航顺(HK)联合电子发烧友推出“近距离体验高性能Cortex-M3,免费申请价值288元评估板
4077 浏览 1 评论
4071 浏览 0 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-8-24 09:27 , Processed in 0.592919 second(s), Total 76, Slave 60 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号