谷歌推出端到端语音翻译威廉希尔官方网站 ,让优质高效的机器翻译不再遥遥无期-电子发烧友网

40年前，英国科幻作家Douglas Ad ams在他的《银河系漫游指南》中这样描述巴别鱼（bable fish）：迷你黄色生物，水蛭状，以声音中的语言概念为食，消化后排出跟寄主同频的脑波。只要塞到耳朵里去，就可以听懂各种语言。

而在这个充满嬉皮风格的科幻作品中，来自地球的Arthur Dent也因为这条丑陋的鱼，能够完美地理解并与他遇到的各种外星种族交流。

自小说诞生，巴别鱼便成为了即时语音翻译的代名词。但在当时，人类的翻译威廉希尔官方网站距离这一目标仍遥不可及。

直到2014年，加拿大蒙特利尔大学的Kyunghyun Cho、Yoshua Bengio等人发布了一篇在机器翻译领域应用神经网络的论文——Neural Machine Translation by Jointly Learning to Align and Translate。

神经网络的出现，让优质高效的机器翻译不再遥遥无期。

每次威廉希尔官方网站的突破都让我们离巴别鱼更近一步，直到今天，谷歌的发布了一项新研究Translatotron，这是一种可以实现端到端的语音转语音的翻译威廉希尔官方网站。该工具放弃了将语音翻译成文本在返回语音的步骤，可以直接从一种语言转换称另外一种语言，并同时保持说话着的语调和节奏。

告别Siri，我们先来感受一下翻译的调调：

通过结合扬声器编码器网络，使得Translatotron能够在翻译的语音中保留原始扬声器的声音特征，这使得翻译的语音听起来更自然，更少刺耳。

更多声音样本可以在Translatotron的Google Research的Github页面上找到。

此功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。扬声器编码器在specker verification任务上预先训练，学习从简短的示例话语对扬声器特性进行编码。即使内容是不同的语言，该编码上调节频谱图解码器也可使得合成具有类似扬声器特性的语音。

Translatotron模型

其实语音翻译的端到端模型的早在2016年就开始出现了，当时研究人员证明了使用单个序列到序列模型进行语音到文本翻译的可行性。

2017年，谷歌研究员们证明了这种端到端模型可以胜过cascade模型。之后又进一步改进许多端到端语音到文本翻译模型的方法。

最终在2019年，谷歌的研究员们在arXiv发表Translatotron模型，通过证明单个序列到序列模型可以直接将语言从一种语言翻译成另一种语言的语音，而不依赖于任何一种语言的中间文本表示。

Translatotron基于序列到序列网络将源光谱图作为输入并生成目标语言中的翻译内容的光谱图输出。它还使用了另外两个经过单独训练的组件：神经声码器将输出频谱图转换为时域波形，使用扬声器编码器来保持合成的翻译语音中源说话者的语音的特征。

在训练期间，序列到序列模型使用多任务目标来在生成目标谱图的同时预测源和目标转录物。

Translatotron的模型结构

该团队称，翻译的准确性并不如传统翻译系统那么好，传统系统有更多时间来磨练其准确性。但Translatotron是第一个能够将语言从一种语言直接翻译成另一种语言的语音的端到端模型。他们希望这项工作可以作为未来端到端语音转语音翻译系统研究的起点。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6166

浏览量
105345
语音识别

语音识别

+关注

关注
38

文章
1739

浏览量
112650

原文标题：巴别鱼雏形，谷歌推出端到端语音翻译威廉希尔官方网站，还能模仿你说话

文章出处：【微信号：BigDataDigest，微信公众号：大数据文摘】欢迎添加关注！文章转载请注明出处。

端到端自动驾驶威廉希尔官方网站研究与分析

编者语：「智驾最前沿」微信公众号后台回复：C-0450，获取本文参考报告：《端到端自动驾驶行业研究报告》pdf下载方式。自动驾驶进入2024年，端

发表于 12-19 13:07 •151次阅读

阶跃星辰发布国内首个千亿参数端到端语音大模型

近日，阶跃星辰在官方公众号上宣布了一项重大突破——推出Step-1o千亿参数端到端语音大模型。该模型被誉为“国内首个千亿参数

发表于 12-17 13:43 •167次阅读

准确性超Moshi和GLM-4-Voice,端到端语音双工模型Freeze-Omni

GPT-4o 提供的全双工语音对话带来了一股研究热潮，目前诸多工作开始研究如何利用 LLM 来实现端到端的语音

发表于 12-17 10:21 •138次阅读

LLMWorld上线代码翻译新工具——问丫·码语翻译侠，快来体验！

01. 工具介绍 aicode.llmworld.net 问丫·码语翻译侠是一款由LLMWorld新推出的代码翻译工具，支持各种语言之间的翻译，包括计算机语言

发表于 12-09 11:11 •248次阅读

爆火的端到端如何加速智驾落地？

编者语：「智驾最前沿」微信公众号后台回复：C-0551，获取本文参考报告：《智能汽车端到端威廉希尔官方网站 研究报告》pdf下载方式。 “端

发表于 11-26 13:17 •251次阅读

Waymo利用谷歌Gemini大模型,研发端到端自动驾驶系统

迈新步，为其机器人出租车业务引入了一种基于谷歌多模态大语言模型（MLLM）“Gemini”的全新训练模型——“端到端多模态自动驾驶模型”（E

发表于 10-31 16:55 •1056次阅读

智己汽车“端到端”智驾方案推出，老司机真的会被取代吗？

随着智能驾驶威廉希尔官方网站 的发展，行业已经从早期基于简单规则和模块化逻辑的自动驾驶，逐步迈向依托深度学习的高复杂度智能驾驶解决方案，各车企也紧跟潮流，先后宣布了自己的端到端智驾方案。就在近期，智

发表于 10-30 09:47 •273次阅读

端到端让智驾强者愈强时代来临？

编者语：「智驾最前沿」微信公众号后台回复： C-0572 ，获取本文参考报告：《信达证券：端到端革命开启，强者愈强时时代即将来临》pdf下载方式。随着科技进步和汽车威廉希尔官方网站 的发展，智能

发表于 10-24 09:25 •501次阅读

端到端InfiniBand网络解决LLM训练瓶颈

ChatGPT对威廉希尔官方网站 的影响引发了对人工智能未来的预测，尤其是多模态威廉希尔官方网站 的关注。OpenAI推出了具有突破性的多模态模型GPT-4，使各个领域取得了显著的发展。这些AI进步是通过大规模模型训练实现

发表于 10-23 11:26 •391次阅读

端到端测试用例怎么写

编写端到端测试用例是确保软件系统从头到尾能够正常工作的关键步骤。以下是一个详细的指南，介绍如何编写端到端

发表于 09-20 10:29 •449次阅读

实现自动驾驶，唯有端到端？

，去年行业主流方案还是轻高精地图城区智驾，今年大家的目标都瞄到了端到端（End-to-End, E2E）。端到

发表于 08-12 09:14 •725次阅读

DeepL推出新一代翻译编辑大型语言模型

在人工智能与语言处理领域，DeepL再次以其创新实力引领潮流，宣布成功推出新一代面向翻译与编辑应用的大型语言模型。这一里程碑式的进展，不仅巩固了DeepL作为顶尖语言人工智能公司的地位，更标志着机器翻译

发表于 07-19 15:56 •671次阅读

循环神经网络在端到端语音识别中的应用

（Recurrent Neural Networks, RNN）在语音识别领域的应用日益广泛，特别是在端到端语音识别系统中，RNN及其变体如

发表于 07-08 11:09 •580次阅读

小鹏汽车发布端到端大模型

小鹏汽车近日宣布，其成功研发并发布了“国内首个量产上车”的端到端大模型，该模型可直接通过传感器输入内容来控制车辆，标志着智能驾驶威廉希尔官方网站 的新突破。

发表于 05-21 15:09 •684次阅读

开源项目！设计一款智能手语翻译眼镜

手语翻译的依赖。这款眼镜的设计既实用又低调，方便日常佩戴，能够无缝融入用户的日常生活中，让使用者能够轻松地与不懂手语的人士沟通。它的亮点在于利用人工智能威廉希尔官方网站 检测手势并进行实时翻译，不

发表于 05-20 15:59