完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
扫一扫,分享给好友
|
|
相关推荐
1个回答
|
|
本周的重要论文有最新推出的 YOLO v4,以及北航团队使用 MangaGAN 新方法生成久保带人 Style 的漫画形象。
目录:
这篇论文中提出了「MangaGAN」,这是一种基于生成对抗网络(GAN)的非成对照片到漫画转换方法。用来训练 MangaGAN 的数据集也来源于一部非常受欢迎的漫画作品——久保带人的《死神(Bleach)》,包含漫画人脸的面部特征、特征点、身体等元素,所以生成结果也带有强烈的久保带人风格。总体来说,MangaGAN 包含两个分支:一个分支通过几何转换网络(Geometric Transformation Network,GTN)学习几何映射;另一个分支通过外观转换网络(Appearance Transformation Network,ATN)学习外观映射。 MangaGAN 生成漫画脸的整体流程。 外观转换 ATN 是 multi-GAN 结构的网络,包含四个局部 GAN,分别用来转换眼、口、鼻和头发这四个面部位置。针对每个部位的 GAN,会有专属的训练策略和编码器以改善其性能。 几何转换 GTN 的 pipeline。几何信息被分为三种独立属性:位置、大小和脸型,然后使用 N_loc、N_siz、N_sha 三个 sub-GAN 分别进行转换。 推荐:有了这个模型,你也能拥有冷峻严酷的漫画形象——并且是独树一帜的久保带人 Style! 论文 2:Generalizing from a Few Examples: A Survey on Few-Shot Learning
在这篇论文中,来自香港科技大学和第四范式的研究者对 FSL 方法进行了综述。首先该论文给出了 FSL 的正式定义,并厘清了它与相关机器学习问题的关联和差异(弱监督学习、不平衡学习、迁移学习和元学习);然后指出 FSL 的核心问题,即经验风险最小化方法不可靠;最后,根据各个方法利用先验知识处理该核心问题的方式,该研究将 FSL 方法分为三大类:数据:利用先验知识增强监督信号;模型:利用先验知识缩小假设空间的大小;算法:利用先验知识更改给定假设空间中对最优假设的搜索。 充足和少训练样本学习的对比。 从数据、模型和算法三种不同视角来观察 FSL 方法如何解决小样本问题。 FSL 方法分类。 推荐:该研究提出了 FSL 的未来研究方向:FSL 问题设置、威廉希尔官方网站 、应用和理论。 论文 3:CLEVRER: COLLISION EVENTS FOR VIDEO REPRESENTATION AND REASONING
在这篇论文中,麻省理工和 DeepMind 的研究者从互补的角度研究了视频中的时间和因果推理问题。受视觉推理数据集 CLEVR 的启发,他们简化了视觉识别问题,但增强了交互对象背后的时间和因果结构的复杂度。结合从发展心理学中汲取的灵感,他们提出了一种针对时间和因果推理问题的数据集。 CLEVRER 包含 20,000 个关于碰撞物体的合成视频以及 300,000 多个问题和答案。问题的类型包括以下四种,即描述性(「什么颜色」)、解释性(「什么原因」)、预测性(「将发生什么」)和反事实(「如果…会发生什么」)。 研究者对各种最新的视觉推理模型在 CLEVRER 上进行了评估,结果显示,尽管这些模型在描述性问题上表现良好,但它们缺乏因果推理的能力,并且在解释性、预测性和反事实问题上表现不佳。 NS-DR 模型结合了用于模式识别和动力学预测的神经网络,以及用于因果推理的符号逻辑,包含四个组件:视频解析器、动态预测器、问题解析器和程序执行器。 推荐:数据集的亮点在于,它包含 20,000 个关于碰撞物体的合成视频以及 300,000 多个问题和答案,从互补的角度研究了视频中的时间和因果推理问题。 论文 4:Detection in Crowded Scenes: One Proposal, Multiple Predictions
相对于经典的 FPN 检测器,该方法在存在大量遮挡的 CrowdHuman 数据集上可以取得明显涨点,在较为稀疏的数据集例如 COCO 上,也会有少量的性能提升。 密集场景中的人体检测,本研究提出的检测方法与 FPN 基线方法的检测效果对比。 整体架构流程图。 在 CrowdHuman 验证集上,各种密集场景检测方法的效果比较,其中 AP 和 JI 值越高、MR_-2 值越低代表性能更佳。 推荐:本文已入选 CVPR 2020 Oral。 论文 5:YOLOv4: Optimal Speed and Accuracy of Object Detection
近日,YOLO 的官方 Github 账号更新了 YOLO v4 的 arXiv 链接与开源代码链接,迅速引起了 CV 社区的关注。在相关论文中,研究者对比了 YOLOv4 和当前最优目标检测器,发现 YOLOv4 在取得与 EfficientDet 同等性能的情况下,速度是 EfficientDet 的二倍!此外,与 YOLOv3 相比,新版本的 AP 和 FPS 分别提高了 10% 和 12%。 本研究提出的 YOLO v4 与其他 SOTA 目标检测器的对比。 单阶段(One-Stage)与双阶段(Two-Stage)检测器图示。 不同目标检测器的速度和准确度对比。 推荐:继 YOLO 之父 Joseph Redmon 宣布其推出计算机视觉领域两个月后,YOLO v4 它悄无声息地来了。 论文 6:NBDT: Neural-Backed Decision Trees
他们提出了一种神经支持决策树「Neural-backed decision trees」,在 ImageNet 上取得了 75.30% 的 top-1 分类准确率,在保留决策树可解释性的同时取得了当前神经网络才能达到的准确率,比其他基于决策树的图像分类方法高出了大约 14%。 神经支持决策树的训练和推理流程。 树监督损失有两个变体,分别是定义每个节点交叉熵项的 Hard 树监督损失,和定义所有节点概率交叉熵损失的 Soft 数监督损失。 在 CIFAR10、CIFAR100、TinyImageNet 和 ImageNet 数据集上的结果对比,其中神经支持决策树(NBDT)优于所有其他基于决策树的方法。 推荐:这种神经支持决策树新研究兼顾了准确率与可解释性! 论文 7:Chip Placement with Deep Reinforcement Learning
研究者将芯片布局看作一个强化学习问题,然后训练智能体将芯片网表(netlist)的节点放置在芯片画布(canvas)上。为了使强化学习策略泛化至新的芯片 block,研究者将表征学习置于预测芯片布局质量的监督任务中。通过设计能够在大量网表及其布局上准确预测奖励的神经架构,该研究生成输入网表的丰富特征嵌入。然后利用该架构作为策略和价值网络的编码器,实现迁移学习。 该研究旨在最小化芯片设计的 PPA(功耗、性能和面积)。研究者称,该方法能够在 6 小时内完成芯片布局设计,布局质量超过或匹配人类设计,而现有的基线方法需要人类专家参与,且往往需要数周时间才能完成。 图神经网络生成嵌入,该嵌入与网表元数据嵌入一道成为策略和价值网络的输入。策略和价值网络整体架构如上所示,其中嵌入层对网表邻接信息、节点特征和即将放置的当前宏的信息进行编码。然后,策略和价值网络分别输出可用布局位置的概率分布以及对当前布局预期奖励的估计。 谷歌利用 RL 智能体放置宏、标准单元的流程图。放置完成后,计算近似导线长度和拥塞的线性组合并将其传递至智能体,为下次训练迭代进行 谷歌方法与当前 SOTA 方法 RePlAce 和人工基线方法的对比结果。 |
|
|
|
只有小组成员才能发言,加入小组>>
4304个成员聚集在这个小组
加入小组3277 浏览 0 评论
航顺(HK)联合电子发烧友推出“近距离体验高性能Cortex-M3,免费申请价值288元评估板
4221 浏览 1 评论
4227 浏览 0 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-11-14 14:13 , Processed in 0.699810 second(s), Total 76, Slave 60 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号