新闻中心

首页 关于我们

新闻中心

教会AI“读唇术”,唇语数据功不可没
发布时间:2020/12/11
返回列表

人类对唇语的学习和研究由来已久,然而由于受经验、视线以及主观因素的影响,人类解读唇语的正确率存在不稳定性。因此让AI学会“读唇术”,在很多应用场景都有着现实意义。

 

AI“读唇术”简单来讲就是一项唇语识别技术,计算机通过进行视觉识别和自然语言处理,来分析说话人的唇部运动,从而识别出说话内容。近几年,海云数据、搜狗等国内多家企业也相继发布唇语识别技术。

 

唇语识别技术在公共安防、军事情报和公益等多个领域都能发挥巨大的作用。例如,在公共安防领域,通过对监控中的人像进行唇语识别,可以帮助公安人员获得讲话信息,顺利展开侦查工作;在军事情报方面,唇语识别可远程获取重要情报;在公益领域,能够帮助先天听障的人更好地进行交流。

 

计算机在识别唇语的过程中,需要观察唇形变化并将这些变化与具体的发音一一对应起来。近些年,国外的唇语识别技术已经相对比较成熟,但是鉴于人种的生物特征以及语言特征的不同,想要发展国内的唇语识别技术,就必须建立属于我们自己的唇语识别系统。一套成熟的唇语识别系统需要大量的人脸特征样本数据,这些数据要尽可能包含更多场景、更多类型的说话人,以此保证训练出来的唇语识别模型具有更好的泛化能力。

 

海天瑞声在今年年初制作了一个唇语识别数据库:

 

该数据库包含2080个视频文件和4160个音频文件,共有208人参与录制,年龄覆盖7至60岁,每位被采集人均用普通话录制10句日常用语,我们通过多种录制设备采集他们在不同光线和环境下的说话状态和内容。

 

随着唇语识别技术日益成熟,说不定在未来的某一天,当警察面对犯罪分子的时候,可以说出那句经典台词:“你有权保持沉默,但你嘴唇的每个动作都将成为呈堂证供!”

 

联系我们

 

电话咨询:010-62660053

邮件咨询:contact@speechocean.com

 

010-62660053

contact@speechocean.com

分享到微信朋友圈

打开微信,点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。