新闻中心

首页 关于我们

新闻中心

如何解决语码转换中的数据挑战?
发布时间:2020/11/03
返回列表

我们整理了郝玉峰博士演讲的主要内容与大家分享。

2-1.png

 

郝玉峰博士提出,语码转换中的数据挑战主要存在于方案设计数据采集数据处理,以及安全合规四个环节,其中方案设计环节中,语码转换文本的语言学特征复杂多样,其难点主要在于多语言混合下文本易读性音素覆盖的全面性;数据采集的难点,主要在于多语种发音人的相对稀缺性;数据处理环节中,语音转写标注的规范性和一致性是亟待解决的问题;数据安全问题,则是贯穿于数据采集、处理、传输和存储过程中的关键。

2-2.png

 

在方案设计方面,海天瑞声语言学家团队开发出了针对全球150+语言、方言计算机可读IPA和音素清单,并设计出针对70+语言的高准确度LTS规则;此外,海天瑞声还研发出了用于设计语码转换方案的文本创作、选择方法;

数据处理环节,海天瑞声的混合语种正则转写规范、具备丰富项目经验的专业团队和自研的质量检验平台可保证语码转换中数据处理的标准化、高质量及高效率;

研讨会中,郝玉峰博士还向嘉宾展示了海天瑞声现有的可直接用于语码转换模型训练的数据库,涉及到5种语言,4组语言对,共计6000+小时。

 

关于我们

 

海天瑞声作为人工智能数据资源及数据服务供应商,致力于为用户提供工程化数据资源,以及数据采集与数据处理等服务。业务覆盖语音识别、语音合成、计算机视 觉、自然语言处理、发音词典等技术领域。

 

联系我们

 

电话咨询:010-62660053

邮件咨询:contact@speechocean.com

 

 

010-62660053

contact@speechocean.com

分享到微信朋友圈

打开微信,点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。