企业培训资讯_企业培训干货

当前位置:首页 > 名师团队

百度美研院声纹识别取得突破性成果:亚博网页版登录首页

发布时间:2020-11-25    来源:登录首页24806

本文摘要:DeepSpeaker:终端对端的神经声纹识别系统在文本相关和文本独立国家的场景下取得了良好的效果。百度美研院展示了DeepSpeaker在三个不同数据集中的有效性,包括文本相关和文本独立国家的任务。

声纹识别

按:迄今为止(公共编号:)多次报道百度语音技术的进展。前几天,百度美研院宣布声纹识别取得的突破性成果。研究指出,利用深度自学的方法比传统的i-vector方法在识别精度上明显提高。

声纹识别算法要求从声音中识别说话者的身份。两个罕见的识别任务是证明(说出者是否是他主张的人)和说出者的身份识别(在不知道的说出者中证明声音的来源)。该技术已经得到了各种应用。例如,声纹可用于指定设备。

出口人员证实也可以作为金融交易的额外安全措施。此外,智能家庭助手等共享设备也可以利用该技术获得个性化服务。

最近,用于神经网络开展声纹识别的论文已经改良了传统的i-vector方法(参考Interspech教程的完整论文和幻灯片)。i-vector方法指出,说明内容可分为两部分,一部分依赖于说明者和信道的可变性,另一部分依赖于其他相关因素。I-vector声纹识别是一个多步骤的过程,与不同说明者的数据有关,估算标准化的背景模型(一般为高斯混合模型),收集充分的统计数据,提取I-vector,最后用分类器展开识别任务。一些论文用神经网络代替了i-vector生产线的方法。

其他研究人员训练与文本有关(用户必须说某种程度的话)的终端语言识别系统,或者训练与文本独立国家(该模型与说明内容无关)的终端语言识别系统。DeepSpeaker:终端对端的神经声纹识别系统在文本相关和文本独立国家的场景下取得了良好的效果。这意味着这个系统可以通过训练来识别谁在说话。

无论是对家庭助手说wake还是在会议上说话。DeepSpeaker由深度神经网层组成,从音频中提取特征,基于馀弦相似性的时间池和三元组损失。百度美研院研究了ResNet转录的卷积模型和现有模型在提取声学特征上的效果。说明:这里百度美研院用于脸部识别中使用的三元组损失。

训练中,他们自由选择说话者的话,计算映射(标记为Anchor)。另外,发生两个映射,一个完全相同的演讲者(标记为Positive),另一个来自不同的演讲者(标记为Negative)。在训练过程中,Anchor和positive映射之间的馀弦接近度低于Anchor和negative映射之间的馀弦接近度。

百度美研院展示了DeepSpeaker在三个不同数据集中的有效性,包括文本相关和文本独立国家的任务。其中一个UIDs数据集还包括约250000名说话者,是科学知识文献中仅次于的数据集。实验结果表明,DeepSpeaker比基于DNN的i-vector方法更显着。例如,文本独立国家的数据集中在随机选择100名演讲者,DeeptSpeaker在演讲者身份证明任务中的错误率为1.83%,正确率为92.58%。

与基于DNN的i-vector方法相比,它降低了50%的错误率,提高了60%的正确率。说明:实验中百度美研院使用的数据集是UIDs、西安Du、Mandarin。UIDs和西安aoDu是普通话数据集,Mturk是英语数据集。

UIDs和Mturk是文本独立国家的数据集,西安Du是文本相关的数据集,基于百度的觉醒字。为了在不同大小的训练集中实验,他们使用了所有UIDs数据集(250,000)和其子集(50,000)。

在评价阶段,他们自由选择Anchor,从测试部分随机选择Anchorpositive样本和99个Anchornegatives样本。团队还发现了Deepspeaker与语言有关的特征。在普通话语境中训练时,Deepspeaker在英语证明和识别任务中可以超过5.57%的错误率和88%的正确率。另外,使用普通话进行英语训练比使用英语训练更加精确。

这些结果表明,尽管不同的语言听起来非常不同,但深度语言的人自学了横跨语言的声音特征。这些结果类似于Deep和Speech2的结果,可以用于识别不同语言的声纹识别。关于DeepSpeaker模型的更好细节,无论是培训技巧还是实验结果,都可以在论文中找到。

论文地址:https://arxiv.org/abs/1705.02304viaresearch.baidu翻译成原始文章,允许禁止发布。下一篇文章发表了注意事项。


本文关键词:演讲者,独立国家,识别,亚博网页版登录首页

本文来源:亚博网页版登录首页-www.waynesharfro.com

分享到:
相关推荐MORE+
02-25 亚博网页版登录首页:紧供需增预期渐增、下旬煤市稳中略强

本文摘要:多头空头陷入僵局转换现行政策潜在性振荡,港口煤市以后稳行。多头空头陷入僵局转换现行政策潜在性振荡,港口煤市以后稳行。上下游复产及北方地区港库存量整修施工进度虽然有缓解,但总体仍较偏高转换短时

02-25 亚博网页版登录首页:什么是宫颈糜烂?如何判断自己得了宫颈糜烂

本文摘要:宫颈糜烂这类妇科病十分罕见,宫颈糜烂轻微患者因为会有哪些呼吸不畅病症,有可能只不容易经常会出现白带多的展现出,因而十分更非常容易轻视。宫颈糜烂这类妇科病十分罕见,宫颈糜烂轻微患者因为会有哪些

02-25 四种时尚韩式编发发型 简单好学不麻烦:亚博网页版登录首页

本文摘要:下一位编辑教你四种时尚的韩国文字发型,非常简单学习并不困难。下一位编辑教你四种时尚的韩国文字发型,非常简单学习并不困难。旅行和工作都很合适哦。这种扎发的方法适合长发多的妹妹。另一方面,分散头

02-25 iOS 13概念图,生产力进一步提升,苹果全家桶越来越厉害了

本文摘要:安卓和苹果针对系统版本都遵守一年1更的状况,都是会针对最新版本和产品研发的新內容进一场新品发布会为开发人员和客户展览将来一年的发展趋向,一般Google不容易在5月份举行I/O大会,而iPh

(09月16日)贵州规划投资1230亿建三大煤化工基地 (12月31日)欧盟积极研产环境友好型水泥-亚博网页版登录首页
热门文章
亚博网页版登录首页|智利乙: 巴列彻不敌塞雷那 终场比分0:2
亚博网页版登录首页:申花下赛季将全力打造新中卫组合 功勋国脚或被周军钦点加盟大连
他是李霄鹏未来急需激活的锋线强援!曾是鲁能公认的金靴级射手:亚博网页版登录首页
昔日申花新人王遭遇职业生涯瓶颈!如今在中甲联赛都难踢主力:亚博网页版登录首页
《东京食尸鬼》真人电影中文预告 国内有望上映:亚博网页版登录首页
寡妇年是什么意思2018年是不是寡妇年为什么原因介绍:亚博网页版登录首页
【亚博网页版登录首页】澳威U20: 麦格理湖城U20不敌新城堡联队U18 终场比分2:1
意乙: 巴勒莫 VS 维罗纳再现小球 比分0:1【亚博网页版登录首页】
亚博网页版登录首页:金信煜在申花迎来爆发绝非偶然!两大特质让他迅速融入球队
木村拓哉与户田惠梨香激战 《无限住人》公开战斗视频【亚博网页版登录首页】
亚博网页版登录首页|《阿童木起源》动画第3话先行图 侦探大叔VS机器人
这个阵容挺豪华的呀!「洁癖男子青山君」配角声优阵容曝光!_亚博网页版登录首页
亚博网页版登录首页-12306官网发公告:2018元旦假期火车票今日可在线订购抢票
Knewton、ALEKS、乂学教育同台对话,详解智适应教育全球发展
不甘心被捆绑,企业用户对单个云计算厂商出现“逃离”情绪:亚博网页版登录首页
客户案例
×