能够直接翻译两种语言间语音的模型-电子发烧友网

语音转语音翻译（S2ST）是打破世界各地人与人之间语言障碍的关键。自动 S2ST 系统通常由语音识别、机器翻译和语音合成子系统级联组成。然而，此类级联系统可能会面临较长的延迟、信息（尤其是副语言和非语言信息）丢失，以及各子系统之间的错误叠加等问题。

2019 年，我们推出了 Translatotron，这是首款能够直接翻译两种语言间语音的模型。此款直接 S2ST 模型能够有效地进行端到端训练，并拥有一个独特功能——在生成的翻译语音中保留源说话者声音（非语言信息）。

Translatotron

https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html

不过，尽管该模型能够生成听起来自然的高保真翻译语音，但与强大的基准级联 S2ST 系统（例如，由语音转文字直接翻译模型［1、2］和 Tacotron 2 TTS 模型组成的系统）相比，其表现仍然欠佳。

https://arxiv.org/abs/1703.08581

https://arxiv.org/abs/1811.02050

Tacotron 2

https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

在“Translatotron 2：稳健的语音转语音直接翻译（Translatotron 2:Robust direct speech-to-speech translation）” 一文中，我们介绍了 Translatotron 的一个改进版本。该版本的表现得到显著提高，同时我们还应用了一种新的方法来将源说话者的声音转换到翻译的语音中。即使输入语音中存在多位说话者轮流说话的情况，经过修订的语音转换方法也能取得成功，同时还能减少滥用的可能性，并且更加符合我们的 AI 原则。使用三个不同语料库进行的实验一致表明，Translatotron 2 在翻译质量、语音自然度和语音稳健性方面的表现明显优于原始版本 Translatotron。

Translatotron 2：稳健的语音转语音直接翻译

https://arxiv.org/abs/2107.08661

AI 原则

https://ai.google/responsibilities/

Translatotron 2

Translatotron 2 由四个主要组件组成：语音编码器、目标音素（Phoneme）解码器、目标语音合成器，以及将它们连接起来的注意力模块。编码器、注意力模块和解码器的组合类似于典型的语音转文字直接翻译（ST）模型。合成器则使用编码器和注意力模块的输出作为条件。

Translatotron 2 的模型架构

（将西班牙语语音翻译为英语语音）

相较于 Translatotron ，Translatotron 2 的更高表现主要源于以下三点新变化：

1. 尽管在原始版本 Translatotron 中，目标音素解码器的输出仅用作辅助损失使用，但在 Translatotron 2 中，它是声谱图合成器的输入之一。这一强大条件使 Translatotron 2 更易于训练，且表现更好。

2. 与 Tacotron 2 TTS 模型类似，原始版本 Translatotron 中的声谱图合成器基于注意力，因此其也存在类似 Tacotron 2 所表现出的稳健性问题。相比之下，Translatotron 2 中使用的是基于持续时间的声谱图合成器（类似于 Non-Attentive Tacotron 使用的声谱图合成器），这能够大大提高合成语音的稳健性。

3. Translatotron 和 Translatotron 2，都使用基于注意力的连接到编码的源语音。然而，在 Translatotron 2 中，这种基于注意力的连接由音素解码器而非声谱图合成器驱动，这确保了声谱图合成器所获取的声学信息与其合成的翻译内容相一致，从而有助于在不同说话者轮流说话时保留每位说话者的声音。

更强大、更负责任的声音保留

原始版本 Translatotron 能够在生成的翻译语音中保留源说话者的声音，方法是将其解码器限定于由单独训练的说话者编码器生成的说话者嵌入向量之上。然而，如果使用目标说话者的录音片段作为说话者编码器的参考音频，或者目标说话者的嵌入向量直接可用，则这种方法还能以不同说话者的声音生成翻译后的语音。虽然这一功能非常强大，但有可能遭到滥用，如使用任意内容制作欺诈音频，这会给生产部署带来问题。

为解决这一问题，Translatotron 2 这样设计：只使用一个语音编码器，该编码器同时负责语言理解和语音录制。这样，训练后的模型便无法用于重现非源语音。这种方法也可以应用于原始版本 Translatotron。

为了在翻译过程中保留说话者的声音，研究人员通常倾向于使用两端都是同一位说话者声音的平行说话内容来训练 S2ST 模型。这样一个两边都有人类录音的数据集很难收集，因为它需要大量流利的双语使用者。为了避免这一难题，我们使用了 PnG NAT 的修改版本，这是一种能够跨语言语音转换来合成此类训练目标的 TTS 模型。我们的修改版 PnG NAT 模型采用了与旧版 TTS 工作方式相同（即使用的策略与原始版本 Translatotron 相同）的单独训练的说话者编码器，因此能够实现零样本语音传输。

旧版 TTS 工作方式

https://arxiv.org/abs/1806.04558

以下是使用 Translatotron 2 进行语音转语音直接翻译的示例，其中保留了源说话者的声音：

输入（西班牙语）：

TTS 合成的参考音频（英语）：

Translatotron 2 预测（英语）：

Translatotron 预测（英语）：

当输入语音包含多个说话者轮流说话时，为了使 S2ST 模型能够在翻译后的语音中保留每个说话者的声音，我们提出了一种简单的基于串联的数据增强威廉希尔官方网站，称为 ConcatAug。该方法会对成对的训练示例随机采样，并将源语音、目标语音和目标音素序列串联成新的训练示例，以增强训练数据。由此得到的样本在源语音和目标语音中都包含两位说话者的声音，这使模型能够根据不同说话者轮流说话的示例进行学习。以下来自 Translatotron 2 的音频样本展示了不同说话者轮流说话的场景：

输入（西班牙语）：

TTS 合成的参考音频（英语）：

Translatotron 2（采用 ConcatAug）预测（英语）：

Translatotron 2（未采用 ConcatAug）预测（英语）：

点击此处获取更多音频样本。

此处

https://google-research.github.io/lingvo-lab/translatotron2/

表现

在我们衡量的各个方面，Translatotron 2 的表现都大大优于原始版本 Translatotron：更高的翻译质量（以 BLEU 衡量，数值越高越好），更好的语音自然度（以 MOS 衡量，数值越高越好），以及更强的语音稳健性（以 UDR 衡量，数值越低越好）。它在难度更大的 Fisher 语料库上表现尤为出色。Translatotron 2 在翻译质量和语音质量方面的表现接近强大的基准级联系统，并且在语音稳健性方面优于级联基准。

UDR

https://arxiv.org/abs/2010.04301

Fisher 语料库

https://catalog.ldc.upenn.edu/LDC2014T23

使用两个西班牙语-英语语料库评估的翻译质量

（以 BLEU 衡量，数值越高越好）

使用两个西班牙语-英语语料库评估的语音自然度

（以 MOS 衡量，数值越高越好）

使用两个西班牙语-英语语料库评估的语音稳健性

（以 UDR 衡量，数值越低越好）

多语言语音翻译

除了西班牙语到英语的 S2ST，我们还评估了 Translatotron 2 在多语言情境中的表现，该模型接收四种不同语言的语音输入并将其翻译为英语。由于事先未提供输入语音的语言，这迫使模型需要自行检测语言。

源语言frdeesca

Translatotron 2 27.018.827.722.5

Translatotron18.910.818.813.9

ST（Wang

等人，2020）27.018.928.023.9

训练目标 82.186.085.189.3

使用 CoVoST 2 语料库评估的多语言 X=》En S2ST 表现

Wang 等人

https://arxiv.org/abs/2007.10310

CoVoST 2

https://arxiv.org/abs/2007.10310

在此任务中，Translatotron 2 的表现同样明显优于原始版本 Translatotron。尽管 S2ST 和 ST 之间的结果没有直接可比性，但接近的数字表明Translatotron 2的翻译质量与基准语音转文字翻译模型相当。这些结果表明，Translatotron 2 在多语言 S2ST 上也非常有效。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音

语音

+关注

关注
3

文章
385

浏览量
38033
AI

AI

+关注

关注
87

文章
30830

浏览量
268995
模型

模型

+关注

关注
1

文章
3238

浏览量
48824

原文标题：Translatotron 2：高质量、稳健、负责任的语音转语音直接翻译

文章出处：【微信号：tensorflowers，微信公众号：Tensorflowers】欢迎添加关注！文章转载请注明出处。

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言模型，以及构建多模态 LLM 有

发表于 12-03 15:18 •127次阅读

一文理解多模态大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>——下

语音识别与自然语言处理的关系

在人工智能的快速发展中，语音识别和自然语言处理（NLP）成为了两个重要的威廉希尔官方网站支柱。语音识别威廉希尔官方网站使得机器能够理解人类的

发表于 11-26 09:21 •366次阅读

PCM5242 OUT LN和OUT LP之间能够直接接16-32Ω的耳机，能够驱动吗？

PCM5242数据表中的说的输出4.2-VRMS 这个指的是 OUT LN 和OUT LP之间的电压还OUT LN 和GND 的之间的电压？OUT LN和OUT LP之间能够直接接16-32Ω的耳机，能够驱动吗？

发表于 10-25 06:46

请问如何将HSPICE和 IBIS两种模型怎么转换成TINA软件中用？

TI网站里，给出了一些期间的HSPICE和IBIS模型，但是现有的仿真工具只有TINA这种，请问如何将HSPICE和 IBIS两种模型怎么转换成TINA软件中用？请高手给予解答。感谢！

发表于 09-02 07:56

【《大语言模型应用指南》阅读体验】+ 基础知识学习

的表达方式和生成能力。通过预测文本中缺失的部分或下一个词，模型逐渐掌握语言的规律和特征。常用的模型结构 Transformer架构：大语言模型

发表于 08-02 11:03

DeepL推出新一代翻译编辑大型语言模型

在人工智能与语言处理领域，DeepL再次以其创新实力引领潮流，宣布成功推出新一代面向翻译与编辑应用的大型语言模型。这一里程碑式的进展，不仅巩固了DeepL作为顶尖

发表于 07-19 15:56 •671次阅读

超ChatGPT-4o，国产大模型竟然更懂翻译，8款大模型深度测评｜AI 横评

随着AI工具的不断增多，各家模型的能力也日益提升，现在无论哪款大模型几乎都能够处理各种翻译难题。在AI浪潮当下，越来越多的论文和前沿信息需要快速翻译

发表于 07-14 08:04 •128次阅读

求助，TTS能够直接使用IO口输出到PA吗？

TTS能够直接使用IO口输出到PA吗？不经过I2C和I2S解码芯片

发表于 06-28 06:02

大语言模型(LLM)快速理解

历史可以追溯到早期的语言模型和机器翻译系统，但其真正的起点可以说是随着深度学习威廉希尔官方网站的兴起而开始。1.1统计语言模型在深度学习威廉希尔官方网站出现之前，

发表于 06-04 08:27 •976次阅读

【大语言模型：原理与工程实践】大语言模型的应用

丹尼尔·卡尼曼在《思考，快与慢》中提出了著名的“系统1与系统2”理论。该理论指出，人类大脑的决策系统存在两种模式：一种是快速的、感性的系统1，它帮助我们处理简单的决策；另一种是缓慢的、理性的系统2

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的评测

的作用。同时，模型在多语言方面的表现直接决定了其在全球范围内的适用性和普及度。为了全面评估大语言模型在翻

发表于 05-07 17:12

【大语言模型：原理与工程实践】大语言模型的基础威廉希尔官方网站

的，与上下文语境无关，因此不适用于一词多义的情况。例如，“苹果”在“我去吃个苹果”与“这个苹果手机好用吗”这两个句子中的语义明显不同，但静态词向量语言模型仅利用同一个向量表示词的语义，难以刻画同一个词在

发表于 05-05 12:17

【大语言模型：原理与工程实践】揭开大语言模型的面纱

，大语言模型还具备出色的关联和关系理解能力，能够捕捉数据间的隐含关系和语义联系，进行高级关联推理。它还支持多步推理，能在推理过程中进行多个步骤的演绎和分析。最后，通过学习大规模数据，大

发表于 05-04 23:55

你好 tms570能够直接运行在片内 sram上吗？

你好 tms570能够直接跑在sram上吗？从flash加载程序1之后，程序1把程序2搬移到sram中，然后在sram中运行程序。TMS570支持这样运行不？

发表于 01-19 09:24

重塑翻译与识别威廉希尔官方网站：开源语音识别模型Whisper的编译优化与部署

模型介绍Whisper模型是一个由OpenAI团队开发的通用语音识别模型。它的训练基于大量不同的音频数据集，是一个多任务模型，可以执行

发表于 01-06 08:33 •3655次阅读

搜索历史

能够直接翻译两种语言间语音的模型

评论

一文理解多模态大语言模型——下

语音识别与自然语言处理的关系

PCM5242 OUT LN和OUT LP之间能够直接接16-32Ω的耳机，能够驱动吗？

请问如何将HSPICE和 IBIS两种模型怎么转换成TINA软件中用？

【《大语言模型应用指南》阅读体验】+ 基础知识学习

DeepL推出新一代翻译编辑大型语言模型

超ChatGPT-4o，国产大模型竟然更懂翻译，8款大模型深度测评｜AI 横评

求助，TTS能够直接使用IO口输出到PA吗？

大语言模型(LLM)快速理解

【大语言模型：原理与工程实践】大语言模型的应用

【大语言模型：原理与工程实践】大语言模型的评测

【大语言模型：原理与工程实践】大语言模型的基础威廉希尔官方网站

【大语言模型：原理与工程实践】揭开大语言模型的面纱

你好 tms570能够直接运行在片内 sram上吗？

重塑翻译与识别威廉希尔官方网站：开源语音识别模型Whisper的编译优化与部署