企业资讯

首页 关于我们

企业资讯

火爆的多模态,模仿的对象竟然是...
发布时间:2021/08/31
返回列表

在通向AGI的道路上,多模态被认为是一个绕不开的技术方向,而人类则是多模态学习的典范,因为我们无时无刻不在通过视觉、听觉、嗅觉、触觉在内的多个感官与这个世界产生交集,这其中所包含的每一种信息形式—视频、图像、文字、语音、味道、质感等信息都是一种模态

1.png

 

01
智能座舱
 
 
02
智能问答
 
 
03
智能会议
 
 
 

 

 

 
多模态数据挑战及解决方案
 
深耕AI数据服务领域16年的海天瑞声,一直致力于推进AI技术在全球的商业落地,对客户需求的理解也一直走在行业前沿。在多模态数据处理方面,海天瑞声有着显著优势:

技术优势

海天瑞声多年积累的核心技术中,多语种多模态训练数据设计技术可结合具体业务场景、应用领域特性,设计匹配的、可用于算法模型开发、训练、拓展优化的多模态数据方案,其中包含实现多语种语料同步处理、多语种音素均衡设计及自动切分与文本对齐等多项自研处理工具;

此外,自主研发的短视频音频聚类技术,可针对多模态训练数据集执行数据关联性、重复性检测,有效地保证了多模态数据集的质量;

项目经验优势

服务于全球500+知名企业及组织机构,为海天瑞声积累了丰富的项目经验,也是我们得以保持较高的市场敏锐度,始终走在客户需求前沿的重要因素之一。在多模态数据服务解决方案方面,海天瑞声目前已经在视频摘要、视频场景分类、视频搜索、多模态问答、智能驾驶、虚拟客服等数十个场景为客户提供多模态数据解决方案;

数据集优势

海天瑞声自有知识产权数据集产品中包含多个即买即用的多模态数据产品,King-AV-028、King-AV-018等,其中King-AV-018是针对虚拟主播需求开发的视频训练数据集,包含250个中国人的唇语视频信息,采集过程将语音数据采集设备叠加针对唇语信息的视频采集设备,运用自主研发的多模态数据采集软件同时录入不同硬件设备的数据,并保持了多维度数据的对齐。

虽然人工智能的终极应用实现被认为还有很长的路需要走,但深度学习在多模态领域的探索和发展无疑为我们提供了一个可能性,让我们可以期待机器能像人脑一样跨越多种感官信息进行感知认知。通往AGI的未来,任重而道远,海天瑞声愿以数据服务为基石,助力全球企业及组织机构的智能探索!

分享到微信朋友圈

打开微信,点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。