0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一款比特率极低的高质量语音编解码器

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-03-30 14:03 次阅读

通过语音和视频通话与他人在线联系逐渐成为日常生活的一部分,这得益于 WebRTC 等实时通信框架,而后者依靠高效的压缩威廉希尔官方网站 和编解码器,解码或编码传输和存储的信号。数十年来,编解码器一直是媒体应用的重要组成部分,可使需要占用大量带宽的应用高效传输数据,支持用户随时随地进行高质量通信。

因此,在开发视频和音频编解码器时,一项长期目标就是提高信号质量,减少数据使用,以及最大程度降低实时通信延迟。虽然与音频相比,视频貌似会占用更多带宽,但现代视频编解码器能够实现比较低的比特率,甚至可能低于目前某些高质量语音编解码器所能达到的值。将低比特率视频和语音编解码器相结合,即使在低带宽网络中也能实现高质量的视频通话体验。但是根据过往经验,音频编解码器的比特率越低,语音信号的清晰度就越差,声音也越像机器人。此外,尽管部分人可以访问稳定的高质量、高速网络,但这种网络连接水平并不普遍,即便在网络良好的地区,有时也会遇到质量差、带宽低和网络拥堵的情况。

为解决这一问题,我们构建了 Lyra。这是一款比特率极低的高质量语音编解码器,即使在最慢的网络上也可以实现语音通信。为此,我们采用传统编解码器威廉希尔官方网站 ,同时利用机器学习 (ML) 的优势,使用基于数千小时数据进行训练的模型,创造出一种全新的语音信号压缩与传输方法。

Lyra 概览

Lyra 编解码器的基础架构非常简单。每隔 40 毫秒,该编解码器都会从语音中提取特征或独特的语音属性,将其压缩后传输。这些特征本身为对数梅尔声谱图,是一系列代表不同频段语音能量的数字,因其根据人类的听觉反应建模,具有感知相关性,所以一直以来得以应用于相关领域。在另一端,生成模型使用这些特征重建语音信号。就这一点来说,Lyra 与其他传统参数编解码器非常相似,如 MELP。

但是,传统参数编解码器只是简单地从语音中提取关键参数,然后在接收端用参数重建信号,虽然可以实现低比特率,但声音往往听起来像机器人一样,并不自然。这些缺点促使相关人员开发新一代高质量音频生成模型,这些模型不仅能够区分信号,还可以生成全新的信号,为这一领域带来了巨大变革。DeepMind WaveNet 为首个生成模型,为之后的模型铺平了道路。此外,WaveNetEQ,即目前 Duo 中使用的基于生成模型的丢包隐藏系统,就是将此威廉希尔官方网站 用于真实场景的成果。

Lyra 压缩的全新方法

以这些模型为基准,我们开发了一个全新的模型,能够使用少量数据重建语音。Lyra 利用这些强大的新型自然语音生成模型,确保将参数编解码器的比特率维持在较低水平,同时实现较高质量,达到与当今大多数直播和通信平台所用顶尖波形编解码器相当的表现。波形编解码器的缺点在于,要达到这种高质量水平,必需逐一压缩和发送信号样本,这需要更高的比特率,并且在大多数情况下,并不是实现自然语音的必要条件。

生成模型的一个问题在于其计算复杂度。Lyra 使用成本更低的递归生成模型,即 WaveRNN 变体,从而避免了这一问题。该模型以较低的比特率运行,但可并行生成频率范围不同的多个信号,然后以所需采样率将其组合为单个输出信号。得益于这一设计,Lyra 不仅可以在云服务器上运行,还可以在中档手机设备上实时运行(处理延迟为 90 毫秒,与其他传统语音编解码器相当)。与 WaveNet 类似,此生成模型基于数千小时的语音数据训练,可准确重建输入的音频。

与现有编解码器对比

自 Lyra 问世以来,我们一直致力于以远低于现有编解码器的比特率实现最高的音频质量。目前,免版税的开源编解码器 Opus 是 WebRTC 型 VOIP 应用中使用最广泛的编解码器,在音频为 32 Kbps 时,通常可以实现与原始语音几无差别的语音质量。然而,尽管 Opus 可以在带宽受限的环境中运行,且比特率最低可达 6 Kbps,但声音质量会明显下降。Speex、MELP、AMR 等其他编解码器虽然也能够实现与 Lyra 相当的比特率,但声音皆会失真,听起来像机器人一样。

根据目前的设计,Lyra 会以 3 Kbps 的比特率运行。听音测试表明,Lyra 在该比特率下的性能优于其他所有编解码器,并且与 Opus 在 8 Kbps 比特率下的表现相当,因此可节省 60% 以上的带宽。在带宽条件不足以满足较高比特率,且现有低比特率编解码器无法实现所需质量时,可以使用 Lyra。

确保公平

与所有基于 ML 的系统一样,必须对模型进行训练,确保其满足所有人的需求。我们利用开源音频库对 Lyra 进行训练,音频数据长达数千个小时,涵盖 70 余种语言,然后与专家和众包听众一同验证音频质量。

我们设计 Lyra 的一个目标在于确保人人都能获得高质量的音频体验。用于训练 Lyra 的数据集范围广泛,涵盖多种语言,可确保编解码器能够稳健应对可能遇到的任何情况。

社会影响和我们未来的发展方向

无论从短期还是长期来看,Lyra 等威廉希尔官方网站 都具有重要而广泛的影响。有了 Lyra,数十亿新兴市场的用户就能使用高效的低比特率编解码器,获得远高于以往的音频质量。此外,Lyra 也可用于云环境,帮助使用不同网络和设备的用户顺畅地聊天。将 Lyra 与 AV1 等全新视频压缩威廉希尔官方网站 相结合,可为较差网络环境中的视频聊天提供支持。用户即使通过调制解调器拨号上网,网速只有 56 Kbps,也可以进行视频聊天。

Duo 已使用 ML 来减少音频中断,目前正推出 Lyra,以求在连接带宽极低时,提高语音通话的质量和可靠性。我们将继续优化 Lyra 的性能和质量,以尽可能地提高威廉希尔官方网站 的可用性,同时还会开展 GPU 加速和 TPU 加速的相关研究。我们还将着手研究如何基于这些威廉希尔官方网站 开发比特率较低的通用音频编解码器,即音乐和其他非语音用例。

原文标题:推出 Lyra:用于语音压缩的新型极低比特率编解码器

文章出处:【微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3641

    浏览量

    134470
  • 机器学习
    +关注

    关注

    66

    文章

    8415

    浏览量

    132616

原文标题:推出 Lyra:用于语音压缩的新型极低比特率编解码器

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    TLV320AIC28音频编解码器评估模块

    电子发烧友网站提供《TLV320AIC28音频编解码器评估模块.pdf》资料免费下载
    发表于 12-20 16:02 0次下载
    TLV320AIC28音频<b class='flag-5'>编解码器</b>评估模块

    TAS25xx编解码器控制EVM手册

    电子发烧友网站提供《TAS25xx编解码器控制EVM手册.pdf》资料免费下载
    发表于 12-10 14:14 0次下载
    TAS25xx<b class='flag-5'>编解码器</b>控制EVM手册

    用于便携式数字音频应用的低功率、高质量的立体声编解码器

    Codec芯片 - CJC8974A是一款低功率、高质量的立体声编解码器,设计用于便携式数字音频应用,以及种单声道桥接音频功率放大器,在由5V电源供电时,能够将3W的连续平均功率传输
    的头像 发表于 12-05 09:21 123次阅读
    用于便携式数字音频应用的低功率、<b class='flag-5'>高质量</b>的立体声<b class='flag-5'>编解码器</b>

    配置I2S以从编解码器设备生成BCLK

    电子发烧友网站提供《配置I2S以从编解码器设备生成BCLK.pdf》资料免费下载
    发表于 10-21 10:30 0次下载
    配置I2S以从<b class='flag-5'>编解码器</b>设备生成BCLK

    Linux上的编解码器移植TMS320DM365预览版

    电子发烧友网站提供《Linux上的编解码器移植TMS320DM365预览版.pdf》资料免费下载
    发表于 10-14 10:53 0次下载
    Linux上的<b class='flag-5'>编解码器</b>移植TMS320DM365预览版

    TMS320DM365中的智能编解码器功能

    电子发烧友网站提供《TMS320DM365中的智能编解码器功能.pdf》资料免费下载
    发表于 10-14 10:24 0次下载
    TMS320DM365中的智能<b class='flag-5'>编解码器</b>功能

    音频编解码器和ADC中有哪些常见噪声问题,如何帮助避免这些问题?

    音频编解码器和 ADC 中有哪些常见噪声问题,如何帮助避免这些问题?
    发表于 10-10 08:09

    音频编解码器中的常见噪声问题

    电子发烧友网站提供《音频编解码器中的常见噪声问题.pdf》资料免费下载
    发表于 10-09 10:19 0次下载
    音频<b class='flag-5'>编解码器</b>中的常见噪声问题

    一款低功率、高质量的单声道音频编解码器 - CJC8911

    CJC8911是个低功率,高质量的单声道编解码器,设计用于便携式数字音频应用程序。该设备集成了完整的接口到个出线端口的接口。片上数字信号处理执行图形均衡器,三维声音增强和麦克风或线
    的头像 发表于 08-08 09:39 476次阅读
    <b class='flag-5'>一款</b>低功率、<b class='flag-5'>高质量</b>的单声道音频<b class='flag-5'>编解码器</b> - CJC8911

    带你探索HiFi智能编解码器的奇妙世界

    HiFi智能编解码器就像是音频世界的魔法师,它让我们能听到最真实、最动人的声音。无论是家庭音响、智能音箱,还是无线耳机和专业设备,这个小小的设备都能带来巨大的音质提升。让我们同期待,未来HiFi智能编解码器为我们带来的更多惊喜
    的头像 发表于 07-18 17:20 792次阅读
    带你探索HiFi智能<b class='flag-5'>编解码器</b>的奇妙世界

    TVP5146高质量、单芯片数字视频解码器数据表

    电子发烧友网站提供《TVP5146高质量、单芯片数字视频解码器数据表.pdf》资料免费下载
    发表于 07-04 10:00 0次下载
    TVP5146<b class='flag-5'>高质量</b>、单芯片数字视频<b class='flag-5'>解码器</b>数据表

    【RTC程序设计:实时音视频权威指南】音视频的编解码压缩威廉希尔官方网站

    至关重要的作用,编解码器的主要目标是通过去除冗余信息和压缩视频数据来减少文件的大小,同时还要保持高质量的视频图像编码负责压缩解码器则负责还原,编解
    发表于 04-28 21:04

    国产可编程振荡在视频编解码器中的应用,兼容SiTime

    国产可编程振荡在视频编解码器中的应用,兼容SiTime
    的头像 发表于 04-17 09:39 1911次阅读
    国产可编程振荡<b class='flag-5'>器</b>在视频<b class='flag-5'>编解码器</b>中的应用,兼容SiTime

    集成电源管理和音频编解码器TPS65950数据表

    电子发烧友网站提供《集成电源管理和音频编解码器TPS65950数据表.pdf》资料免费下载
    发表于 03-06 11:15 0次下载
    集成电源管理和音频<b class='flag-5'>编解码器</b>TPS65950数据表

    高性能立体声编解码器DA7400 数据表

    电子发烧友网站提供《高性能立体声编解码器DA7400 数据表.pdf》资料免费下载
    发表于 02-20 10:11 1次下载
    高性能立体声<b class='flag-5'>编解码器</b>DA7400 数据表