AI使用音频剪辑对与语音匹配的真实感面部建模-电子发烧友网

您是否曾经仅仅根据他们的声音来构造一个从未见过的人的心理形象？人工智能（AI）现在可以做到这一点，仅使用简短的音频剪辑作为参考即可生成人脸的数字图像。

这个名为“ Speech2Face” 的神经网络（一种以类似于人脑的方式“思考”的计算机）经过科学家培训，接受了来自互联网的数百万个教育视频，显示了100，000多个不同的人在说话。

研究人员在一项新研究中写道，Speech2Face通过该数据集学习了语音提示与人脸某些物理特征之间的关联。然后，AI使用音频剪辑对与语音匹配的真实感面部建模。

值得庆幸的是，人工智能还不能仅仅根据他们的声音确切地知道特定的人是什么样。研究作者报告说，神经网络识别语音中的某些标记，这些标记指向性别，年龄和种族，是许多人共有的特征。

科学家写道：“因此，该模型只会产生看上去普通的面孔。” “它不会产生特定个人的图像。”

尽管坦率地说，对猫的解释有点让人恐惧，但AI已经证明它可以产生出异常准确的人脸。

由Speech2Face生成的脸部-均面向正面并具有中性表情-与声音背后的人并不完全匹配。但是，根据这项研究，这些图像通常确实可以捕捉到正确的年龄范围，种族和性别。

但是，该算法的解释远非完美。当面对语言变化时，Speech2Face表现出“混合表现”。例如，当AI收听亚洲人讲中文的音频片段时，该程序会产生亚洲人脸的图像。然而，据科学家报道，当同一个人用不同的音频片段讲英语时，人工智能产生了白人的面孔。

该算法还显示出性别偏见，将低音调的声音与男性面孔相关联，将高音调的声音与女性面孔相关联。研究人员写道，由于训练数据集仅代表YouTube上的教育视频，因此“并不代表整个世界人口。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数字图像

数字图像

+关注

关注
2

文章
119

浏览量
18748
人工智能

人工智能

+关注

关注
1791

文章
47208

浏览量
238284
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24690

充电桩语音方案，支持OTA语音升级的音频芯片NV400F

1产品市场随着新能源汽车的普及，充电桩作为其核心配套设施，其智能化、便捷化的需求日益增长。充电桩语音方案，尤其是支持OTA（Over-The-Air）语音升级的音频芯片NV400F，正逐步成为市场上

发表于 11-09 01:03 •260次阅读

充电桩<b class='flag-5'>语音</b>方案，支持OTA<b class='flag-5'>语音</b>升级的<b class='flag-5'>音频</b>芯片NV400F

tlv320Ai32在输出音频时总有丝丝声，为什么？

tlv320Ai32在输出音频时总有丝丝声，即使输出的滤波将噪声调整到90mV以下还是存在。测试发现HPout的噪声有将近480mV 请问这是什么原因，Ai32还有什么寄存器要设置的？模拟电源的纹波大概60mV，有影响吗？

发表于 11-05 06:09

NVH-FLASH语音芯片支持平台做语音—打造音频IC威廉希尔官方网站革新

随着科技的飞速发展，人们对于电子产品的音频性能要求越来越高。在这种背景下，NVH-FLASH系列语音芯片应运而生，作为音频IC领域的一次重大威廉希尔官方网站革新，NVH-FLASH系列语音芯片凭借

发表于 10-16 08:02 •200次阅读

NVH-FLASH<b class='flag-5'>语音</b>芯片支持平台做<b class='flag-5'>语音</b>—打造<b class='flag-5'>音频</b>IC威廉希尔官方网站
革新

真实感受，迷你主机到底是不是智商税？

我是今年年初把我的台式主机换成了华硕的迷你主机PN65（主要是我这台主机太大，我感觉它太碍事），第一次接触迷你主机是被它小巧轻便的外形所吸引的，相比与传统主机的厚重，迷你主机只有巴掌哪么大，对于办公面积不大的小伙伴来说绝对是一大福音。直接上图大家看吧尺寸大小对比都说只有巴掌大小，现实对比只有我半个手掌大总感觉迷你主机的性能不如台式主机，买台式主机到底是不是智商税？我手里的这台迷你主机从购买

发表于 08-13 18:25 •250次阅读