欢迎来到北京海天瑞声科技有限公司-海天瑞声      联系电话:010-62660053  电子邮件:contact@speechocean.com

中文 | English

新闻资讯>详情

“海天瑞声”现有“自由对话&自由语音语料库”数据

虽然随着技术的进步,语音识别准确度已达到令人吃惊的程度,但不可否认的是:在连续语音(公开演讲、语音写作等)、自然对话、多个说话人(如会议记录等)和背景噪音场景下,语音识别的准确率还是差强人意的。因此,自由对话&自由语音语料库(即spontaneous speech corpus)也越来越受到学术界和产业界的欢迎。

海天瑞声现有的自由对话语音识别语料,总时长约2.9万个小时,由大约3万名发音人,分别在手机信道、桌面信道和固话信道上录制而成,绝大部分是从2016年开始录制的。包含20多个语种,如普通话、粤语、维吾尔语、藏语、闽南语、台湾国语、美英、英英、西语、德语、日语、韩语等大语种,也包括北朝鲜语、印地语、泰卢固语、古吉拉特语、土耳其语等小语种。

在进行文本设计时,我们选择了人们在日常对话中涉及最广的一些领域,比如体育、新闻、购物、娱乐、电子、家居等30多个领域。发音人(单人、或两人一组),根据自己最感兴趣或擅长的领域,任意选择话题,面对面、或通过电话,进行自由发挥式的谈话。

在录音过程中,我们不对发音人和交谈节奏做任何人为引导,以确保对话的自然性。如果在录制过程中,出现了较长时间的卡顿、辞不达意、严重的吞吞吐吐等,我们会放弃这部分数据。当然,在选择发音人时,我们会尽量选择语言表达能力较好的,以避免废数据的频繁出现。

在后期处理中,由我们专职的质检团队进行严格的人工校对和质检,并由母语发音人做了转写和标注。对语音中出现的短时间的停顿、重复、非人声等,都做了详细的标注。整体准确率>95%

“海天瑞声”现有自由对话语料数据汇总如下:

 



更新时间:2017-05-17

相关文章