欢迎来到北京海天瑞声科技股份有限公司-海天瑞声      联系电话:010-62660053  电子邮件:contact@speechocean.com

English

新闻资讯>详情

媒体报道 - Siri、小冰和度秘背后的语音技术革命浪潮

       文章来源:zol.com.cn 新闻中心 | 2015年09月23日 15:59:00


      原文链接:http://news.zol.com.cn/542/5429150.html?qq-pf-to=pcqq.c2c


    语音交互技术是人工智能的关键技术,让机器能听会说、能像人一样的学习、理解和思考,成为人类生活和工作的得力的帮手、亲密的伴侣,一直是人类的梦想。随着近半个世纪智能语音技术的进步和深度神经网络技术(DNN)的工程化应用,人类正不断的接近这个梦想,这个梦想也同时极大的驱动着智能语音技术的发展。最初,人们只能让机器发出类似人的声音,比如18世纪后半叶欧洲人制造的Kempelen讲话机,它能说出有限的词和短句。经历了两个多世纪,现在的"聊天机器人"不仅能以自然度很高的声音与人交流、还会调侃、卖萌。20世纪50年代AT&T贝尔实验室的Audry系统,它可以识别十个英文数字。现在,语音识别技术的自然语言识别正确率已经高于95%。

  2013年,全球智能语音产业规模达到33.7亿美元。其中,中国智能语音产业规模达到16.9亿元,同比增长95.6%。预计到2014年,中国语音产业规模预计达到30.6亿元,占全球智能语音产业规模的比重将从2013年的8.4%增长到10.7%。

  微软8月20日发布的"小冰",和百度在9月8日发布的"度秘",再一次在人群中掀起人工智能和人机交互的热潮。

  "小冰"是个17岁甜美伶俐的少女,她现在可以陪你文字聊天,很快也就可以和你语音聊天了。那时你会发现,她不仅声音甜美,反应机敏,还会说好多流行的语言。你要犯二,小冰就调侃你"侬脑子瓦特了";你要问她一个敏感的私人问题:"你喜欢他吗?"她就会机智的说:"我喜欢他全家"。

  "度秘"的梦想是让每一个人,不论是一年级的小学生,还是七八十岁的老年人,只要会说话,就都能平等地享受互联网服务。她不仅可以"听懂"人的指令和提问,并给予准确的反馈、信息查询,还会体贴的嘘寒问暖。如果你提问:"那儿有按摩的?"她不仅会帮你找出附近的按摩店,还会关心叮嘱你:"忙碌的工作之余,也不要忽视身体健康哟。"

  在这纷繁多彩的应用背后,是近些年来迅猛发展的智能语音技术,如语音合成(TTS),语音识别(ASR),自然语言理解(NLP),深度学习(DL)等。微软、百度、苹果、腾讯等IT巨头,近些年在智能语音技术上进行了巨大而持续的科研投入和技术创新。语音技术的识别率,过去是85%,而现在已经超过95%。机器人的声音,再也不是那种生硬冰冷的腔调,它已经初步开始有了类似于人的"情绪"。

  但这还不是全部。在这些炫目的语音技术的背后,还有一个虽然沉默、但又至关重要的角色,一个大数据时代的资源-大规模的语音语料库数据资源。包括语音和文本语料库、各类语音语义学词典等,可以说基础数据资源库是智能语音技术的关键性基础环节,而其中最重要的就是语音基础数据资源,其规模和质量,在很大程度上决定了各种智能语音应用的广度和深度,也极大的影响着用户的体验。

  为了更深刻的了解在"小冰"和"度秘"聪明伶俐、能听会说背后的秘密,记者专访了北京海天瑞声科技有限公司的CEO唐涤飞先生。唐涤飞先生在二十年前起就开始从事在语音合成、自然语言理解方面的研究工作,是这一领域的资深专家之一。作为全球最大的人工智能数据资源供应商之一,"海天瑞声"在语音合成(TTS)、语音识别(ASR)、自然语言理解(NLP)和机器翻译(MT)等技术领域的基础数据资源开发领域,积累了17年的专业经验。就智能语音基础数据资源而言,目前已经拥有116种语言、覆盖70多个国家和地区的数据资源制造能力。

                                                                                     北京海天瑞声科技有限公司的CEO唐涤飞先生


  小冰和度秘对人发出的指令的理解能力,比之前的语音助手表现要好很多。在百度世界大会上,面对李彦宏的种种刁难,度秘应对自如,不仅帮"厂长"在网上订了两杯拿铁,还订好了可以带宠物的餐厅,在网上团购了动画片电影票。那么,"小冰"和"度秘"能准确理解人的指令的提问背后的秘密是什么呢?

  唐涤飞先生说,这是由于语音识别(ASR)技术和自然语言理解(NLP)技术的巨大创新和进步,从最初的DNN模型到现在的LSTM模型,从机器学习(ML)到深度学习(DL),每次技术创新都给用户带来了全新的体验。不仅如此,在训练语音识别引擎中所使用的基础语音语料库,也是至关重要的因素。在设计语料时,需要专业的语言学家根据特定语言的语言学现象,全面考虑语料领域分布、应用场景分布、语料时效性等因素,同时借助相应的NLP处理技术和标注团队来确保数据库语料池的规模和结构科学合理、音素覆盖与平衡、句意完整、语义连贯、拼写正确且易读可懂,最后再按照发音人分布、口音分布、文本分布、音素分布、场景分布等条件通过采用相应的算法如DTW动态规则算法对发音人的文本进行抽取形成特定发音的文本。

  据唐涤飞先生介绍,为了让能让"小冰"、"度秘"等机器人能用自然甜美流畅的声音说话,大规模的语音合成(TTS)数据库的设计和开发,从根本性上决定了用户对她的体验。在数据库的设计上,首先要选择年龄和音质合适的发言人,她的声音要年轻、阳光、伶俐且充满活力。其次,在数据库的设计上,要充分考虑到语言和音素的全面覆盖,语料主要来自海量的聊天对话语料。例如,为了强调"小冰"是一个有情感的小姑娘,她不仅会一本正经的说话,也会生气、卖萌,因此,需要在语料设计中增加很多口语化的句子和网络用语,甚至还有网络小说里的段落。同时,还要有常用的英语词汇、中英混合词汇、数字串、地名等专用语料。另外,在人的自然语言中,同一句话在不同的情境里,说出来的语调和韵律是不一样的。因此,在语料设计中,还要考虑到这些因素。如此一来,语料库的规模往往就要在上万句甚至数万句。从某种程度上说,语音合成语料库设计的失败,会极大的抵消掉语音合成技术的进步。

  从小冰和度秘这样的聊天机器人,到真正的机器伴侣,人类还有一段很长的路要走,还有许多困难需要克服。她必须能更准确的听懂并响应对她发出的各种指令,还要能"理解"人的情绪变化和情感需要,能进行独立的"思考",从而为人提供更接近于真实的人的服务,包括情感支持和慰藉。在语言表达方面,也要更接近人类的真实情感和情绪的表达,要更自然流畅。造成这种困难的原因当然是多方面的,唐涤飞先生从其中一个方面做了解释,那就是基础数据资源的缺乏和成本居高不下。如上面所提到的,为了让聊天机器人能够尽可能的听懂、甚至真正能"理解"人的语言和情绪,对基础数据资源设计者和开发者,就提出了更高的要求。

  从国内的基础数据资源市场看,在2005年之前,可用于大规模工程化应用的大型中文语音数据库市场还是一片空白。直到2005年之后,市场上才开始逐渐出现了一些以"海天瑞声"为代表的、以工程化应用为主要目的语音数据库B2B业务供应商,其中,不仅在中文普通话数据库,而且在方言、重口音普通话和少数民族语言的语音语料库开发方面,做了大量的开创性工作。从另一方面讲,国内的基础资源市场现状仍不容乐观,还有大量的空白需要填补。简单来说,目前的现状是:数据种类少,分布不均匀,尤其是方言、重口音、外语类资源仍然特别短缺;中小型、适合学术和科研使用的数据虽多但质量较差,大规模、高质量工程化数据资源还是比较稀缺;数据的重复开发情况比较普遍,但重复利用度低,缺乏数据共享机制,也存在着严重的知识产权问题。

  数据库成本居高不下也是一个很重要的问题,这造成了技术和市场进入的壁垒,导致只有那些IT巨头们才有能力进行人工智能的巨大而持久的投入。唐涤飞先生介绍说,海天瑞声也在不断的进行数据库制作的技术创新和采集处理方式创新,目标是不仅能提供更多种类的高品质的基础数据资源,也能使其生产成本有效的降低,以满足更多中小型技术公司的数据业务需要。



更新时间:2015-09-25

相关文章