电话

+86
-10-62660053

邮箱

contact@speechocean.com

留资
TOP
火爆的多模态,模仿的对象竟然是...
2021.08.31
随着深度学习的不断发展,人工智能在许多感知、理解、语言与认知任务中已接近甚至超越人类,例如AlphaGo 战胜围棋世界冠军GPT-3生成我们以为出自人类之手的文本。虽然这与真正意义上的通用人工智能(简称AGI)还相去甚远,但依然阻挡不了人类坚定追逐的步伐。

在通向AGI的道路上,多模态被认为是一个绕不开的技术方向,而人类则是多模态学习的典范,因为我们无时无刻不在通过视觉、听觉、嗅觉、触觉在内的多个感官与这个世界产生交集,这其中所包含的每一种信息形式—视频、图像、文字、语音、味道、质感等信息都是一种模态

1.png

基于多模态的虚拟主播

试想一下,如果人工智能不再局限于单一模态下的交互,而是像人类一样同时感知多种类型信息,医疗机器人可以像人类医生一样通过“望、闻、问、切”进行诊断虚拟助手不仅听得懂声音,还可以根据肢体动作、微表情、语调等信息来综合判断以给出更加精准的反馈,我们的生活将会怎样?
01
智能座舱


目前,多模态信息技术的应用已经不再局限于探索层面,已经在多个应用场景落地,比如,智能座舱正在从原本单一的车载语音识别,向融合视觉、听觉、车内外场景图像的多模态识别转变。多模态识别下的车载智能助手,不仅可以听懂语音指令,还可以通过摄像头识别人的表情神态、动作,观察是否存在疲劳驾驶、分心、打电话等状况,以进行及时的语音提醒;
02
智能问答


跨模态检索、多模态智能问答也逐步成为电商平台帮助用户拍照识别检索、提升文本客服服务能力的重要方式,前者融合了商品图像视觉信息、语义属性、文本信息三个模态的信息,后者则因为细粒度视觉信息的融合,使得模型不仅可以生产质量更高的对话,而且突破了单一的文字交流模式,可实现智能客服对用户语音、图片、视频信息的解答;
03
智能会议


会议场景中的智慧屏幕,可根据视频会议中的发言对象进行视角跟踪、焦点人物识别、甚至通过唇形辅助更精准的实时语音识别

2.png



多模态数据挑战及解决方案

大规模标注数据是大多数深度学习模型进一步实现性能优化的瓶颈,对多模态学习更是如此,甚至更具挑战性,因为它需要同步标注对齐的多模态数据,例如图像、语音、文本的精细对齐,标注工作量是单模态数据的倍数;对于包含高层语义属性的多模态数据处理,除了精细对齐,对标注质量的评判也缺乏一个较为客观的标准,为数据交付和使用都增加了难度。
深耕AI数据服务领域16年的海天瑞声,一直致力于推进AI技术在全球的商业落地,对客户需求的理解也一直走在行业前沿。在多模态数据处理方面,海天瑞声有着显著优势:

技术优势

海天瑞声多年积累的核心技术中,多语种多模态训练数据设计技术可结合具体业务场景、应用领域特性,设计匹配的、可用于算法模型开发、训练、拓展优化的多模态数据方案,其中包含实现多语种语料同步处理、多语种音素均衡设计及自动切分与文本对齐等多项自研处理工具;
海天瑞声自研多模态多通道数据采集技术可实现多通道录音、跨模态数据采集及内容分析等,例如可通过多终端设备同时获取被采集对象的面部三维表情对话语音信息唇部动作信息声音来源方向信息等多维度信息,大幅提升数据采集效率;
此外,自主研发的短视频音频聚类技术,可针对多模态训练数据集执行数据关联性、重复性检测,有效地保证了多模态数据集的质量;

项目经验优势

服务于全球500+知名企业及组织机构,为海天瑞声积累了丰富的项目经验,也是我们得以保持较高的市场敏锐度,始终走在客户需求前沿的重要因素之一。在多模态数据服务解决方案方面,海天瑞声目前已经在视频摘要、视频场景分类、视频搜索、多模态问答、智能驾驶、虚拟客服等数十个场景为客户提供多模态数据解决方案;

数据集优势

海天瑞声自有知识产权数据集产品中包含多个即买即用的多模态数据产品,King-AV-028、King-AV-018等,其中King-AV-018是针对虚拟主播需求开发的视频训练数据集,包含250个中国人的唇语视频信息,采集过程将语音数据采集设备叠加针对唇语信息的视频采集设备,运用自主研发的多模态数据采集软件同时录入不同硬件设备的数据,并保持了多维度数据的对齐。
虽然人工智能的终极应用实现被认为还有很长的路需要走,但深度学习在多模态领域的探索和发展无疑为我们提供了一个可能性,让我们可以期待机器能像人脑一样跨越多种感官信息进行感知认知。通往AGI的未来,任重而道远,海天瑞声愿以数据服务为基石,助力全球企业及组织机构的智能探索!

电话
留资
会员