观媒移动版

揭开“AI合成主播”的神秘面纱

来源:网络传播杂志 | 2018-11-30 19:54

今后还计划推出更多形式和风格的“AI合成主播”
扫码手机轻阅读

第五届世界互联网大会期间,新华社联合搜狗公司发布了全球首个合成新闻主播——“人工智能合成主播”(以下称“AI合成主播”),引起了国内外媒体的关注。目前“AI合成主播”已经实现日常新闻播报的量产。“AI合成主播”的算法原理是什么?它的出现是否会取代真人主播?传播君独家对话新华社新媒体中心副总编辑齐慧杰,为你揭开“AI合成主播”的神秘面纱。

“AI合成主播”正在播报新闻

传播君:第五届世界互联网大会上“AI合成主播”表现抢眼。当初萌发“AI合成主播”的创意灵感是什么?开发过程是怎样的?开发过程中遇到了哪些困难?

齐慧杰:“AI合成主播”的雏形是搜狗公司研发的一款可以从图像表情、声音语言等层面进行拟人化训练的AI产品。我们看到这款AI产品以后,发现它有很多地方可以和媒体的内容生产相结合,最终我们决定和搜狗公司联合开发这款“AI合成主播”。

开发过程中,新华社和搜狗公司投入了大量的人员做技术和内容产品的研发。在原先产品的基础上,通过研发实现了文字键入、语音输入、机器翻译等多种文本信息输入的方式,经过半年的努力,最终诞生了这款“AI合成主播”。

在开发过程中,最大的困难是保证“AI合成主播”在工作时,表情、唇动和声音完全地自然合一。在此之前国外已经有一些虚拟的主播形象了,但是无法做到表情、唇动和声音的吻合。因此我们在这方面下了大力气,最终攻克了这一技术难点,这也是我们的“AI合成主播”在技术层面上最独特的地方。目前这个“AI合成主播”在世界上是独一无二的,现在很多海外媒体对我们的“AI合成主播”很感兴趣。

AI合成主播通过语音播报介绍自己

传播君:使用“AI合成主播”录一场节目的操作复杂吗?

齐慧杰:“AI合成主播”的操作十分简单。使用“AI合成主播”录制节目时,只需要一般工作人员将播报的文本信息编辑输入系统,即可实现实时的视频播报,不需要专业的技术人员介入。“AI合成主播”会根据文本字数长短生成相应的语音。例如一二百字的文本,只需要几秒钟便可以制作完成。

相比真人主播,“AI合成主播”极大地减少了新闻媒体在后期制作的各项成本。以往真人主播播报新闻,需要化妆、备稿,还需要一个团队的人进行配合,比如灯光、摄像都需要参与其中。如果录制期间真人主播念错字了,还需要重来。但是“AI合成主播”只需要一名工作人员简单配合即可,并且永远不会出错。

另外,一个真人主播在一段时间内只能干一件事情,但是“AI合成主播”有无数个分身,可以同时录制播报多个新闻,人工智能大幅度提高了生产传播效率。

传播君:“AI合成主播”背后的算法机制是怎样的?如何实现音频和表情、唇动保持自然一致?

齐慧杰:“AI合成主播”最难的地方是实现表情、唇动和声音的自然一致。为了实现这一点,我们使用了大量的前沿技术,比如人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等,在此基础上结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型。该项技术能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无差别的效果。

传播君:“AI合成主播”会被大范围推广使用吗?在具体应用过程中会面临哪些问题?

齐慧杰:“AI合成主播”在上线当天便开始生产新闻了,已经被运用到进博会、世界互联网大会等重要新闻事件,以及突发、科技、社会、文化等各领域的新闻报道。我们在新华社客户端上还开辟了专门的AI栏目,每天会有超过十条以上的中文新闻和十条以上的英文新闻由“AI合成主播”来播报。“AI合成主播”播报的新闻给客户端带来了不错的流量,不少单条新闻流量突破了百万。

现在的“AI合成主播”只能算是我们的1.0版本,目前可以完成真人主播照稿子念的工作。我们的技术团队还在不断优化迭代版本,希望让“AI合成主播”的表情更加自然,并且在播报的时候还能增加一些肢体语言,今后还计划推出更多形式和风格的“AI合成主播”。

原标题:播音员会被人工智能取代吗?揭开“AI合成主播”的神秘面纱

精彩推荐