完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
1、如何改进MobileViT-v1与MobileViT-v2?MobileViT-v3带你实验 卷积神经网络(CNNs)[如ResNet、DenseNet和effentnet]被广泛用于分类、检测和分割等视觉任务,因为它们在已建立的基准数据集(如Imagenet、COCO、PascalVOC、ADE20K和其他类似数据集)上具有很强的性能。当在移动设备等资源普遍受限的边缘设备上部署cnn时,适合这种环境的轻量cnn主要有Mobilenet (MobileNetv1、MobileNetv2、MobileNetv3)、ShuffleNet(ShuffleNetv1和ShuffleNetv2)和EfficientNet的轻量版本(EfficientNet-B0和EfficientNet-B1)系列模型。与具有大参数和FLOPs的模型相比,这些轻量级模型缺乏准确性。 最近,Vision Transformer(ViTs)已经成为替代cnn执行这些视觉任务的强有力的选择。由于其架构设计,cnn与局部相邻像素/特征相互作用,生成嵌入局部信息的特征图。相比之下,ViTs中的自注意力机制与图像/特征映射的所有部分相互作用,产生嵌入全局信息的特征。这已被证明可以产生与cnn相似的结果,但需要大量的预训练数据和数据增强。此外,这种全局处理以大参数和FLOPs为代价,以匹配ViT及其不同版本(如DeiT、SwinT、MViT、Focus-ViT、PVT、T2T-ViT、xit)中的cnn的性能。表明vit存在优化器选择、学习率、权值衰减和收敛速度慢等超参数敏感性高的问题。为了解决这些问题,有学者提出在vit中引入卷积层。 最近的许多研究在ViT体系结构中引入了卷积层,形成混合网络,以提高性能,实现高效率,并使模型在参数和flop方面更有效,如MobileViTs(MobileViTv1, MobileViTv2), CMT, CvT, PVTv2, ResT, MobileFormer),CPVT, MiniViT, CoAtNet, CoaT。其中许多模型在ImageNet-1K上的性能(包括参数和FLOPs)如图1所示。 原作者:嵌入式AI AI学习者
|
|
相关推荐
|
|
飞凌嵌入式-ELFBOARD-ELF 2硬件知识分享之Debug
763 浏览 1 评论
飞凌嵌入式ElfBoard ELF 1板卡-烧录流程介绍之单独更新内核
2165 浏览 1 评论
飞凌嵌入式ElfBoard ELF 1板卡-TF卡烧录流程之烧写过程
993 浏览 0 评论
iTOP-3A5000主控板龙芯架构外加机箱就是一台电脑主机
1318 浏览 0 评论
迅为RK3568开发板EMMC镜像导出打包update.img
1714 浏览 0 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2025-1-9 22:12 , Processed in 0.573020 second(s), Total 67, Slave 48 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号