11月7日,第五届世界互联网大会在浙江乌镇开幕。搜狗公司CEO王小川、新华社副社长刘思扬、搜狗公司智能语音事业部总经理王砚峰和主持人邱浩联合发布了搜狗与新华社合作开发的、全球第一个“AI合成主播”。

  据悉,AI合成主播可以实现用与真人一样的声音进行播报,在播报过程中,唇形、面部表情等也能够与真人主播完全吻合,用户只要输入新闻文本就可以。可以全年365天,每天24小时进行播报,同时还能用无数个分身,同时在不同现场播报各种资讯。该AI合成主播的声音和外型目前是脱胎于主播邱浩。

  AI合成主播是由“搜狗分身”技术打造。所谓“搜狗分身”,是搜狗人工智能的核心技术之一,通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练。而这项技术的两大难点在于高逼真度和个性化定制成本低,“搜狗分身”只需要少量的用户真实音视频数据,就可以快速定制出高逼真度的模型,这两点是其最大的优势,目前已经达到商用级别。

  AI合成主播的打造,是先由真人主播面对镜头录制一段播报新闻的视频,利用这项技术,提取真人主播的声音、唇形、表情动作等特征。然后再通过语音合成、唇形合成、表情合成、深度学习等技术来“克隆”出一个虚拟主播,从而拥有和真人主播一样的播报能力。

  让机器首次做到逼真模拟人类说话的声音、嘴唇动作和表情,并且将三者自然匹配,做到惟妙惟肖,打造更加自然、有温度的交互,从而提升观众信息获取的真实度。可以批量复制无数风格各异的人类形象,满足用户的个性需求,提高不同行业和职业的信息生产传播效率。尤其是在当前的媒体行业,新闻视频的生产和传播效率得到极大提升。

  AI合成主播看起来非常炫酷,但是我们直观看来会提出不少疑问,比如语音合成究竟有多厉害?AI合成主播和YouTube上火爆的虚拟主播“爱酱”有怎样的区别?

  “搜狗分身”主要包含语音合成和图像生成两大引擎,其中包括三个合成:声音合成、表情合成、以及最关键的唇形合成。在声音上,搜狗有着深厚的技术积累,并且通过合作的形式获得了不同的语音来源,进行了大量的数据采集。当前已经具备多语种、多音色的语音合成能力,并且能够实现个性化的语音合成和情感迁移。但是这方面我们很容易联想到拥有郭德纲、林志玲声音的高德地图。

  语音合成技术的效果主要通过表现力、音质、复杂度和自然度这四个维度来进行考量,高德地图是一个很好的例子。高德地图实现郭德纲、林志玲语音导航的方法是通过建立庞大的语音库,比如请林志玲读了非常多的语料,包括出各种长短句、甚至语气词,然后对录音进行数据标注,再进行特征训练和技术优化,使得合成的声音更加自然流畅,保持原有的音色和韵律。接下来输入文本,使计算机理解这些自然语言文本,然后为合成的语音规划音段特征,进行韵律处理,再行输出。

  相比之下,搜狗分身需要的数据量要小得多,用海量的声音进行训练,又能利用更少的声音数据来训练特定人的声音,这是搜狗的技术壁垒所在。

  提到“AI主播”,大多数人的第一印象就是世界第一虚拟Youtuber"爱酱"。但”爱酱“不是真人,外表是类似于初音未来、洛天依这样的二次元人物。虽然名叫“Kizuna AI”,但其实并不是人工智能。爱酱曾在和Siri的对话中完胜,并且在直播中的实时反馈表现远远超过了当前人工智能的技术水平,说话自然流畅,表情动作丰富可爱,实时反馈准确,甚至声音还会出现破麦的状况。更加合理的解释是爱酱的背后有一位能够被广泛接受的真人主播,爱酱依靠动作捕捉、人脸识别和人物建模来完成,主要靠PGC来运营。另外,虽然爱酱表情动作足够生动,但是在唇形上并没有下功夫。

爱酱.jpg

  由此看来,搜狗和新华社合作的“AI合成主播”和目前所谓的“AI虚拟主播”是完全不同的物种。“AI合成主播”的关键在于“AI”,以及”合成“。关于主播的形象,更是与有些网友提到的全息投影完全无关,全息投影是利用干涉和衍射原理记录并再现物体真实,并非训练和合成。

  因此,我们看到的“搜狗分身”技术打造的外型惟妙惟肖、语音播报自然流畅的“AI合成主播”,在语音合成和表情、唇形合成方面已经是非常大的进展。王小川认为,一旦机器能够掌握自然语言,强人工智能就有可能到来。虽然AI合成主播已经很“像”真人,但是AI合成主播目前的能力还只是“读稿子”,进一步说,是像真人一样生声情并茂地“读稿子”,且读稿子过程中的“声情并茂”也并非自发理解形成。在认知上,机器的能力还非常有限。

  对于未来的方向,王小川表示,AI合成主播只是“搜狗分身”技术的一个应用分支,未来“搜狗分身”技术在娱乐、医疗、法律、健康、教育等多个领域还将提供更多个性化的内容。并且搜狗还将继续探索“搜狗分身”的边界,将该技术运用到中国与世界个国家跨语言交流场景中去。这就涉及到不同语言环境下的声音训练和合成,最大的挑战在于翻译领域,并且需要更多的外文素材,甚至方言素材来进行通用训练。

  接下来的一段时间可能逐渐会有一些电视、网络节目会利用AI合成主播来进行播报,可以降低成本、减少错误、提高效率,或者出现更多诸如此类的AI合成客服、AI合成柜台、AI合成讲师等,分身大量落地。但是现阶段AI的能力还非常有限,正如日前围绕科大讯飞掀起的关于人工智能能否替代翻译的讨论,答案是否定的。

  一部分不需要大量思考,不需要深度知识积累的工作会越来越多的应用AI来提高生产力,但是需要人类进行思考、分析、情感输出、以及灵活运用知识储备的工作还无法用AI来完成,只存在于科幻剧集当中。即使最基础的工作,人工智能完全替代人类也需要一定的周期,在这个不断进阶的过程中,人类将会找到更好地控制人工智能的位置。

  此外,对于有些AI合成供给的落地还有待思考,比如我们是否有必要拥有一个以某个真人为原型的AI虚拟男/女友,或者一个逼真的AI聊天机器人。需求的开发是对技术的理解,对市场的洞察,同时也是一门艺术。