欢迎来到北京海天瑞声科技股份有限公司-海天瑞声      联系电话:010-62660053  电子邮件:contact@speechocean.com

English

新闻资讯>详情

爆料:“海天瑞声”推出全国首个大规模维吾尔语自由对话语料库

维吾尔语是我国第二大语言,目前我国境内使用维吾尔语的人口约有1,500万。由于维吾尔语在语音数据采集和转写、语音标注方面,其成本和难度大大高于其他国内语言,因此,维语的语音识别训练语料一直是非常稀缺的,而大规模的维语自由对话语料则几乎一直是空白。

那么,好消息来了!

12月份,我们将正式推出700小时的维语自由对话语音数据库,除此以外我们还有300小时的维语单句语料资源。这些数据已经被国内著名的语音科技巨头采用,并给予了高度的认可。

该数据库是在新疆采集完成的,在安静环境里进行录音。录音参数是8k,16bit(座机,自由对话),16k,16bit(手机,单句)。

共有近千名维吾尔族发音人参与了录音,其中男女性别比例约为1:1。发音人主要来自于以维语为主要官方语言的地区。

我们选择了人们在日常交流中涉及最多的领域,包括家庭、工作、运动、购物、新闻、食物、电影等21个最常见的话题。

该数据库由维语的母语使用者进行人工转写和标注,并经过了严格的质量检验。作为国内唯一一家能提供发音词典的数据供应商,我们也为这个语料库制作了基于SAMPA的UG-CN发音词典

更多关于此数据库的细节,请电话或邮件咨询我们。

为了让大家体会一下该数据库的魅力,我们将在12月底前推出一些免费数据!请小伙伴们奔走相告,关注我们的微信号,不要错过推送哦!

网站链接:http://kingline.speechocean.com

电话咨询:010-62660053

邮件咨询:contact@speechocean.com


更新时间:2016-12-02

相关文章