0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI使用音频剪辑对与语音匹配的真实感面部建模

倩倩 来源:新经网 2020-04-11 10:40 次阅读

您是否曾经仅仅根据他们的声音来构造一个从未见过的人的心理形象?人工智能AI)现在可以做到这一点,仅使用简短的音频剪辑作为参考即可生成人脸的数字图像。

这个名为“ Speech2Face” 的神经网络(一种以类似于人脑的方式“思考”的计算机)经过科学家培训,接受了来自互联网的数百万个教育视频,显示了100,000多个不同的人在说话。

研究人员在一项新研究中写道,Speech2Face通过该数据集学习了语音提示与人脸某些物理特征之间的关联。然后,AI使用音频剪辑对与语音匹配的真实感面部建模。

值得庆幸的是,人工智能还不能仅仅根据他们的声音确切地知道特定的人是什么样。研究作者报告说,神经网络识别语音中的某些标记,这些标记指向性别,年龄和种族,是许多人共有的特征。

科学家写道:“因此,该模型只会产生看上去普通的面孔。” “它不会产生特定个人的图像。”

尽管坦率地说,对猫的解释有点让人恐惧,但AI已经证明它可以产生出异常准确的人脸。

由Speech2Face生成的脸部-均面向正面并具有中性表情-与声音背后的人并不完全匹配。但是,根据这项研究,这些图像通常确实可以捕捉到正确的年龄范围,种族和性别。

但是,该算法的解释远非完美。当面对语言变化时,Speech2Face表现出“混合表现”。例如,当AI收听亚洲人讲中文的音频片段时,该程序会产生亚洲人脸的图像。然而,据科学家报道,当同一个人用不同的音频片段讲英语时,人工智能产生了白人的面孔。

该算法还显示出性别偏见,将低音调的声音与男性面孔相关联,将高音调的声音与女性面孔相关联。研究人员写道,由于训练数据集仅代表YouTube上的教育视频,因此“并不代表整个世界人口。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数字图像
    +关注

    关注

    2

    文章

    119

    浏览量

    18748
  • 人工智能
    +关注

    关注

    1791

    文章

    47208

    浏览量

    238284
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24690
收藏 人收藏

    评论

    相关推荐

    充电桩语音方案,支持OTA语音升级的音频芯片NV400F

    1产品市场随着新能源汽车的普及,充电桩作为其核心配套设施,其智能化、便捷化的需求日益增长。充电桩语音方案,尤其是支持OTA(Over-The-Air)语音升级的音频芯片NV400F,正逐步成为市场上
    的头像 发表于 11-09 01:03 260次阅读
    充电桩<b class='flag-5'>语音</b>方案,支持OTA<b class='flag-5'>语音</b>升级的<b class='flag-5'>音频</b>芯片NV400F

    tlv320Ai32在输出音频时总有丝丝声,为什么?

    tlv320Ai32在输出音频时总有丝丝声,即使输出的滤波将噪声调整到90mV以下还是存在。测试发现HPout的噪声有将近480mV 请问这是什么原因,Ai32还有什么寄存器要设置的? 模拟电源的纹波大概60mV,有影响吗?
    发表于 11-05 06:09

    NVH-FLASH语音芯片支持平台做语音—打造音频IC威廉希尔官方网站 革新

    随着科技的飞速发展,人们对于电子产品的音频性能要求越来越高。在这种背景下,NVH-FLASH系列语音芯片应运而生,作为音频IC领域的一次重大威廉希尔官方网站 革新,NVH-FLASH系列语音芯片凭借
    的头像 发表于 10-16 08:02 200次阅读
    NVH-FLASH<b class='flag-5'>语音</b>芯片支持平台做<b class='flag-5'>语音</b>—打造<b class='flag-5'>音频</b>IC威廉希尔官方网站
革新

    真实感受,迷你主机到底是不是智商税?

    我是今年年初把我的台式主机换成了华硕的迷你主机PN65(主要是我这台主机太大,我感觉它太碍事),第一次接触迷你主机是被它 小巧轻便的 外形所吸引的,相比与传统主机的厚重,迷你主机只有巴掌哪么大 ,对于办公面积不大的小伙伴来说绝对是一大福音。 直接上图大家看吧     尺寸大小对比     都说只有巴掌大小,现实对比只有我半个手掌大   总感觉迷你主机的性能不如台式主机,买台式主机到底是不是智商税? 我手里的这台迷你主机从购买
    的头像 发表于 08-13 18:25 250次阅读
    <b class='flag-5'>真实感</b>受,迷你主机到底是不是智商税?

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    本帖最后由 jf_40317719 于 2024-6-18 17:39 编辑 视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能
    发表于 06-18 17:33

    语音降噪的原理

    在专业音频设备中,语音降噪是很重要的一个环节。随着AI人工智能的快速发展,各种AI人工智能降噪方法应运而生。
    的头像 发表于 06-03 17:21 1772次阅读
    <b class='flag-5'>语音</b>降噪的原理

    3D建模的特点和优势都有哪些?

    的应用。 特点: 1.三维模型化:3D建模允许用户在虚拟空间内创建具有长度、宽度和高度的物体,从而形成真实感十足的三维模型。 2.精确性:通过3D建模软件,用户可以精确地控制对象的尺寸、形状和位置,确保设计的准确性。 3.可视化
    的头像 发表于 05-13 16:41 2407次阅读

    USB AI话务语音降噪音频方案

    USB AI话务语音降噪音频方案
    的头像 发表于 04-25 18:16 595次阅读
    USB <b class='flag-5'>AI</b>话务<b class='flag-5'>语音</b>降噪<b class='flag-5'>音频</b>方案

    谷歌推出多模态VLOGGER AI

    谷歌最新推出的VLOGGER AI威廉希尔官方网站 引起了广泛关注,这项创新的多模态模型能够让静态肖像图“活”起来并“说话”。用户只需提供一张人物肖像照片和一段音频内容,VLOGGER AI就能让图片中的人物仿佛真的在朗读这段
    的头像 发表于 03-22 10:45 835次阅读

    音频通话产品的福音,数字语音处理模块,可消除回音,降低噪声。

    音频数字语音
    jf_63900430
    发布于 :2024年03月11日 22:37:46

    中兴努比亚发布全球首款5G+AI裸眼3D平板

    此平板采用Neovison 3D Anytime科技将2D画面即时转换为3D效果,增强观影及音乐娱乐体验的真实感。较前代产品而言,新设备在分辨率、亮度和色相等3D性能参数上都有大幅提升。
    的头像 发表于 02-27 14:51 702次阅读

    让机器拥有说话能力,智能语音音频处理SoC

    AI,还需要智能语音音频处理SoC。   智能语音音频处理SoC   所谓智能语音
    的头像 发表于 02-02 00:15 2751次阅读

    AI语音与机器视觉开发应用系统

    一、简介 AI语音与机器视觉开发应用系统是一款集成AI语音、机器视觉、深度学习基础、嵌入式Linux于一体的高端教学科研实验平台。 整个教学平台由实验箱高性能嵌入式主板够成,高性能嵌入
    的头像 发表于 01-26 11:24 409次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>语音</b>与机器视觉开发应用系统

    Adobe在Premiere Pro中引入AI音频编辑功能

    Adobe近日宣布,其视频剪辑软件Premiere Pro正式引入全新的AI驱动音频编辑功能。这一创新旨在解放剪辑师的双手,减少繁琐的操作,进一步提升工作效率。
    的头像 发表于 01-19 15:31 762次阅读

    英伟达推出NVIDIA ACE服务,提供AI模型和微服务制作虚拟数字

    总而言之,NVIDIA Ace是一个使机器人形象具备真实感乃至情感的创新性威廉希尔官方网站 平台,无论是在云还是个人PC上都能流畅运行。已与之签约合作的公司有Convai、Charisma.AI、Inworld、米哈游、网易游戏、掌趣科技、腾讯游戏、育碧及UneeQ等。
    的头像 发表于 01-09 11:29 628次阅读