欢迎来到北京海天瑞声科技有限公司-海天瑞声      联系电话:010-62660053  电子邮件:contact@speechocean.com

中文 | English

新闻资讯>详情

【海天瑞声】"少数民族语言"数据资源盘点

 

虽然普通话已在全国推广了近半个世纪,但仍有相当数量的少数民族同胞不能熟练的使用汉语。而用于工程化ASR模型训练的少数民族语音数据资源一直稀缺。我们从2016年开始,先后录制了2000多小时的维吾尔语和藏语的工程化语音识别数据库,其中包含单句和对话,共计3000多名发音人,分别在手机信道和固话信道上录制。

资源介绍

 
移除
点击此处添加图片说明文字

*注:其中维吾尔语和哈萨克语的科研用语音资源来自清华大学、新疆大学和西北民族大学的联合分享。其他语音资源及发音词典由海天瑞声制作。

在进行文本设计时,我们选择了人们在日常交流中涉及最多的领域,包括家庭、工作、运动、购物、新闻、食物、电影等多个最常见的话题。在发音人的选择上,我们会选用语言表达能力强、思维清晰的母语发音人来录音。

1)对于单句语料,发音人按照设计好的文本进行录音;

2)对于对话语料,发音人两两一组,根据自己感兴趣的领域,任意选择话题,进行自由发挥式的谈话。

在后期处理中,所有语料都由我们专业团队进行严格的人工校对和质检,并由母语发音人做了转写和标注。对语音中出现的短时间的停顿、重复、非人声等,都做了详细的标注,整体准确率>95%。作为国内唯一一家能提供发音词典的数据供应商,我们分别为这些少数民族语言配备了相应的发音词典。

相关资源

【海天瑞声】维吾尔语商业库

【免费数据库】维吾尔语语音识别数据库

维吾尔语发音词典

【免费数据库】哈萨克语语音识别数据库

【海天瑞声】藏语发音词典

 

另外,我们还有一些少数民族语音库用于科研研究,如需了解更多的信息,请点击下方链接访问天籁数据中心:

http://kingline.speechocean.com/

或通过以下方式联系我们:

 

网站链接:http://kingline.speechocean.com

电话咨询:010-62660053

邮件咨询:contact@speechocean.com

更新时间:2017-05-24

相关文章