在近日举行的NeurIPS大会上,发布了两册英特尔提供支持的关于口语数据集的白皮书,其中,《人的语言》主要涉及到“自动语音识别”任务,另一册——《多语种口语语料库》则涵盖“关键词识别”。这两个项目的数据集都贡献了大量丰富的音频数据,且每个数据集在同类中都拥有最大的可用体量。
《多语种口语语料库》由英特尔软件与先进威廉希尔官方网站 事业部(SATG)的机器学习工程师Keith Achorn参与撰写。Keith在英特尔社区网站的博客中讲述了自己参与该项目的经历。
在ML Commons的支持下,“人的语言”和“多语种口语语料库”于2018年开始启动,该项目旨在识别世界上最常用的50种语言并统一到单一的数据集中,从而使这些数据得到有效利用。该项目小组成员来自英特尔、哈佛大学、阿里巴巴、甲骨文、Landing AI、密歇根大学、谷歌、百度等。
在当今多元化、国际化、多语言的工作环境中,准确转录和翻译的能力愈发重要。通过使用以上数据集,计算机可以“听到”口语单词,并自动生成文本或译文。
这两个项目都运用了“多样化语音”,这意味着它们可以更好地展现自然环境音,如背景噪音、非正式语言模式、录音设备混音以及其他声学环境等。这与诸如有声读物之类的高度受控的内容不同,后者产生的声音更加“纯净”。然而,在实际应用中,多样化语音训练有助于提高识别的准确性。
“人的语言”项目内含数万小时的对话音频。如今,它是世界上最大的、可免费下载的、用于学术和商用的英语语音识别数据集之一。
“多语种口语语料库”是一个音频语音数据集,不仅拥有超过30万个关键字的数十种语言,能够通过智能设备访问,还涵盖了50多亿用户的日常对话,有助于推动全球范围内受众语音应用的研发。
这两个数据集都将提供给广泛的用户进行应用,它们包括商用在内的授权许可条款都相对较为宽松。
原文标题:英特尔助力人工智能语言识别
文章出处:【微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。
审核编辑:汤梓红
-
英特尔
+关注
关注
61文章
9959浏览量
171733 -
人工智能
+关注
关注
1791文章
47253浏览量
238401 -
语言识别
+关注
关注
0文章
15浏览量
4826
原文标题:英特尔助力人工智能语言识别
文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
人工智能ai4s试读申请
人工智能威廉希尔官方网站 跃进:英特尔引领AI无处不在新纪元
英特尔帕特·基辛格:让AI无处不在
英特尔人工智能创新应用大赛最终奖项揭晓!酷睿Ultra助力选手创意开发

英特尔AI产品助力其运行Meta新一代大语言模型Meta Llama 3
英特尔升级AI PC加速计划
英特尔推动AI(人工智能)产业应用型人才培养聚势共赢
爱立信与英特尔携手推动Open RAN与人工智能发展
新思科技与英特尔深化合作加速先进芯片设计
嵌入式人工智能的就业方向有哪些?
Sarcina Technology加入英特尔联盟
英特尔推出一家新的AI公司
英特尔人工智能创新应用大赛开启!为更多用户带来 AI PC 生产力及娱乐体验跃升
AI PC释放开发创意,英特尔人工智能创新应用大赛火热报名中!

评论