欢迎来到北京海天瑞声科技股份有限公司-海天瑞声      联系电话:010-62660053  电子邮件:contact@speechocean.com

English

新闻资讯>详情

智能语音基础数据的机遇和挑战-专访北京海天瑞声科技有限公司(海天瑞声)

  近日,本刊记者专访了北京海天瑞声科技有限公司副总裁程显峰先生。


  据程显峰先生介绍,随着语音在智能产业的应用不断加深,全球、以及中国的语音市场在接下来的5年当中仍将维持显著增长。到2020年,全球语音市场规模预计将达到191.7亿美元。中国人工智能语音产业也获得了前所未有的发展,2015年,中国的语音市场规模为46.8亿人民币,比前一年增长53.1%,占世界的12%。 虽然国外科技巨头在语音上一如既往的占据强势,但就语音识别领域而言,中国并不落后于发达国家,而且,不少技术还处于国际领先地位。


  作为国际领先的智能语音基础数据资源及数据服务供应商,北京海天瑞声科技有限公司(以下简称“海天瑞声”)在国内、乃至国际数据市场上都享有很高的知名度。海天瑞声的数据资源和数据服务涵盖了语音识别、语音合成自然语言理解、图像识别等人机交互技术领域。

而全球语音市场规模的不断扩大,也给基础数据资源服务商们带来了很大的市场机遇和挑战。从市场机遇方面来看,机器学习、特别是语音识别技术的发展,对语音基础数据的需求依赖很大,训练语料从最初的几千小时,上升到动辄上万、几万小时的数量级。语音识别准确率现在已经达到95%以上的准确率,但仍然距能为人们提供满意的体验,有一定的差距。


  在2015年9月的“百度世界大会”上,百度首席科学家吴恩达曾表示:“我相信语音有很大的潜力改变人与设备的交互方式,现在语音识别可能已达到95%的准确度,但要看你的口音等等来定,很多人没意识到95%的准确度到99%的准确度带来的不是量变是质变,是从你偶尔使用语音变到常常使用做到更自然,做到99%准确,将彻底改变 人与设备交互的方式”。


  据程显峰先生说,从95%到99%,不只是4个百分点的差距,而是人们接纳或不接纳语音识别技术的差距。而这个差距的消弭,要靠极其庞大的语音训练数据积累、算法的突破性改进、深度神经网络技术的巨大进步来推动实现。


  在中国工信部“中国语音产业联盟”发布的“2015年中国智能语音产业发展白皮书”中,记者看到这样的内容:“随着语音技术的发展和国际上开源语音软件的不断涌现,语音技术从研发到应用的时间明显缩短,语音行业技术门槛大幅降低,语音企业的数量也在逐年快速增长。但整个行业内语音资源存量和需求量呈现逐年增加的态势,特别是大量中小企业和研发机构存在数据采集和制作能力较弱等问题,行业对专业数据制造商的依赖不断增加。 2015年全球语音数据资源总量继续增长,但增长趋势远低于数据需求增长速度。”


(上图摘自“2015年中国智能语音产业发展白皮书”)


  从上图的数据可以看出,国内的语音数据量和国外相比,还是有一定差距的。而“海天瑞声”的语音数据,无论在数量上还是在语言种类上,这些年都在以很快的速度增长。据海天瑞声公司副总裁程显峰先生说,到2016年年底,海天瑞声的数据总量还会保持10%左右的增长率。


  但即便如此,语音数据资源的短缺和数据质量参差不齐,仍然是国内市场广大语音行业企业面临的问题。导致以上状况的主要原因是:数据资源生产方式并没有发生根本性的变革,数据采集和处理方法的局限性,导致数据生产效率不能得到有效提升、成本不能大幅降低。有些数据制造商,开始尝试采用基于移动互联网的数据众包采集和处理模式,比如国内的“海天瑞声”推出了“飞鱼”中文数据采集处理平台,国外的Crowdee,也推出了面向全球的数据众包采集和制作系统。但它们目前尚处于探索阶段,规模有限,还无法广泛的替代传统的数据制作方式。


  由于技术的发展,研发高质量语音系统所需要的基础数据资源量非常巨大,因此只有实力强大、资金雄厚的语音技术研究机构,才有能力获取大量的基础数据语音语料库资源,同时也有能力在技术创新上进行巨大投入,借助算法的提升,以提高语音识别的准确率。广大的中小创业企业由于资金有限,在和语音巨头们的竞争中处于相对劣势,但是其差距已经不如以前明显。至于高校和科研机构,虽然国家在语音技术科研上的经费投入每年都在递增,但僧多粥少的格局,短期内还难以打破。高质量的语音技术科研基础数据资源的短缺,是科研成果产出数量和质量遭遇的瓶颈之一。


  因此,对于基础数据资源供应商,未来的工作重点应该是着力提高优质数据资源的总体供给量,并借助国家发展“互联网+”产业的政策导向,在整合资源、改良传统的数据生产方式、提高数据生产效率方面多下功夫。同时,在不损害基本商业利益的前提下,数据资源供应商应设法加大对基础学术研究领域的数据资源公益性投入。我们也希望政府有关部门,在政策引导和资金扶持方面,能为行业内优质的数据资源供应商提供更多支持。


  数据安全,是今年特别值得提出的一个问题。语音输入作为一种交互工具,越来越普遍的被集成在各类基于互联网的在线应用中。实时采集的用户数据,携带着丰富的用户真实行为信息,具有极高的信息二次挖掘和复用价值。一直以来,关于用户数据的去隐私化处理、数据保密以及数据使用的伦理问题,一直是业界普遍关注和反复讨论的热点话题。在今年的第十八届五中全会上, “互联网+”和国家大数据战略也被作为重要的课题提出,信息安全和数据安全也越来越得到国家和政府的重视。因此,行业内亟需建立完善的用户数据采集、处理和使用规范,以及数据安全保密措施,并由产业联盟和相关企业合作成立专门的数据安全机构,从数据采集、数据处理到数据使用的整个过程进行规范化监管。


  行业内的基础数据资源供应商,也要在规范自身运作、完善内部数据业务流程、数据安全保障等方面,自发的做出积极的努力。同时,在用户数据的合规使用方面,加强自律性和自我监管意识。


更新时间:2016-08-05

相关文章