、熟悉 Siri、Google Now、Cortana、S-Voice 和/或 Echo 的每个人都熟悉过去十年语音识别的进步和改进。这种改进大部分来自基于云的识别器在大数据上部署“深度学习”。
尽管它经常不在聚光灯下,但嵌入式系统的语音识别已经取得了很大进展。事实上,大多数主要的语音引擎都部署了嵌入式和基于云的识别的组合。这在“Hey Siri”、“OK Google”、“Hey Cortana”、“Hi Galaxy”和“Alexa”等命令中最为明显。所有这些基于云的识别系统都使用嵌入的“触发”短语来打开云连接,为语音识别做好准备。
嵌入式触发短语允许一些基于云的方法的改进和实用性。一方面,拥有一个“永远在线”的嵌入式识别器比让你的对话上传到云端让谷歌和其他人以他们想要的任何方式分析要少得多。由于它在设备上,因此在说出触发短语之前不会进行语音录制或传输,并且触发侦听是实时完成的,而不会发送您的语音。
嵌入式唤醒触发器也有实际原因,其中一个主要原因是功耗。仅在云中运行需要大量数据传输和分析,使得电池供电或“绿色”产品不切实际。许多主要的 DSP 公司都为“始终开启”的 DSP 提供解决方案,这些 DSP 以 2 mA 或更低的电流运行 Sensory 的 TrulyHandsfree 唤醒触发选项。使用健全的活动检测方案,平均电池消耗可以低于 1 mA,将其置于电池泄漏领域。
嵌入式语音识别的其他流行用途是在需要对有限命令进行快速准确响应的设备中。我最喜欢的例子之一是三星 Galaxy 智能手机,在相机模式下,用户可以启用语音命令来拍照。这适用于我在 20 英尺远的安静环境或 5 英尺远的嘈杂位置。这是随身携带自拍杆的绝佳替代品,每当我向人们展示此功能时,他们都会很快获得并喜欢它。
嵌入式扬声器验证也被更频繁地部署,并且通常被合并到唤醒触发器中,以降低其他人唤醒您的设备的可能性。对于语音识别和说话人验证,总是需要在错误接受(接受错误的用户)和错误拒绝(拒绝正确的用户)之间进行权衡。首选的唤醒触发设置通常是以偶尔让正确的人进入为代价来保持极低的错误拒绝。在需要更复杂的扬声器验证以确保安全的系统中,可以部署不需要最低要求的更复杂的算法功耗,以增加电流消耗为代价获得更好的精度。
随着消费产品和手机使用更复杂的处理器,我预计更高比例的语音识别使用将转移到嵌入式设备,并且会出现“分层”语音识别方法,从而在设备上进行快速初始分析并做出响应如果设备对成功有很高的信心(自我认知),但如果它不太确定自己的响应或需要基于云的搜索,则将其传递给云端。
审核编辑:郭婷
-
处理器
+关注
关注
68文章
19265浏览量
229682 -
嵌入式
+关注
关注
5082文章
19111浏览量
304857 -
深度学习
+关注
关注
73文章
5500浏览量
121117
发布评论请先 登录
相关推荐
评论