欢迎来到北京海天瑞声科技股份有限公司-海天瑞声      联系电话:010-62660053  电子邮件:contact@speechocean.com

中文 | English

新闻资讯>详情

中文普通话声纹识别数据库



声纹识别是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的,简单的说就是辨别某一句话是否是某一个人说的技术。技术方面有分为两类:即说话人确认技术和说话人辨认技术,说话人确认技术是用于判断未知说话人是否为某个指定人;后者则是用于辨认未知说话人是已记录说话人中的哪一位。


目前声纹识别在刑侦破案、罪犯跟踪、国防监听、智能家居、证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等多方面应用的推广。我公司于几个月前制作了一个中文普通话声纹识别数据库,详情如下:


数据名称:中文普通话声纹识别数据库

数据编号:King-ASR-620

数据制作:海天瑞声

录音平台:手机

数据参数:16k,16bit

录音通道:三通道

数据大小:34.8GB

录音时长:324小时

录音人数:300人

数据详情:

该中文普通话声纹识别数据库于2017年年底在北京录制,所有录音均在安静办公室或安静居家环境中完成,共有300位发音人参与,其中包括133位男士与167位女士,半数以上(157位)发音人处于16-30岁的年龄段中。

本数据库采用手机平台录制,分别有三种不同系统的手机设备收录发音人的声音:安卓系统手机、苹果手机与Windows系统手机。

发音人按照我们设计好的文本录音,文本所涉及内容基本来自日常用语、新闻、网上聊天等渠道,当然,我们会在设计文本时提前去掉不良信息或敏感词汇。

在录制过程中,为研究发音人其声音隔一段时间是否会产生变化,每位发音人的录音分为两次完成,两次间隔不少于一周的时间,并且录音内容互不重复。每次录音时,发音人需要在30分钟内以自然放松的语气和语速,录制单句、数字串、电话号码、命令词、长段落等106句语料。

经人工校对、筛选过滤和质检后,我们为该数据库保留了19万句有效语料,并且所有语料都由母语发音人做了转写和标注,整体准确率不低于95%。此外,我们为该数据库提供一个中文普通话发音词典。

联系我们:

网站链接:http://kingline.speechocean.com

电话咨询:010-62660053

邮件咨询:contact@speechocean.com



更新时间:2018-05-09

相关文章