直播新红海,狼人杀火爆背后的语音视频技术 | 深度
小编按:本文作者冼牛,即构科技市场运营总监,香港大学MBA,十年研发经验,音视频云服务技术专家,专注连麦互动直播技术应用研究。 本文系小编独家文章。 狼人杀,刚刚崛起,就陷入红海竞争。 一切发展的太快,都还来不及思考,APP排行榜上就挤满了同质化的狼人杀产品。 经过2016年直播元年的驱动,语音视频云服务已经相对成熟。因此,狼人杀语音视频入门相对容易,集成第三方的技术方案用就可以了。 然而,狼人杀语音视频要差异化却十分困难,因为不管是自研还是采用第三方的技术方案, 都还存在一些关键的痛点:
语音视频的技术难度在业内被公认是十分高的,如果能很好地解决这些技术问题,狼人杀就能建立坚固的技术壁垒。在语音连麦的基础之上,再加上视频连麦的能力,那么狼人杀就能构筑安全的护城河,为进一步的业务创新提供有力的技术支撑。 下面我们展开讨论一下狼人杀如何构筑技术壁垒。 噪音抑制(NS, Noise Suppression)狼人杀最头疼的问题就是背景噪音,没有之一。 拿一个十二人一局的狼人杀游戏为例,每一个用户都会带入一定程度的背景噪音。十二个人的背景噪音叠加在一起,简直是没办法玩了。参加过视频会议的朋友应该是有所体会,如果有一个参会者是在汽车上接入视频会议的,那么这个参会者就要把麦克风关掉,不然这会议就没办法开了。在狼人杀游戏中,这个问题会更加严重,你不能让某个用户把麦克风关掉,你也不能要求用户在没有噪音的环境下加入游戏,用户体验永远是摆在第一位的。 终端设备采集进去的声音可以分为三种:
第一种声音是有效的,第二和第三种声音是无效的。第二种声音是无法抑制的,因为系统无法区分这是否是用户有意制造的声音。第三种声音是白噪音,在每一个频段的功率都是均匀的,可以类比为包含了所有颜色的白光,白噪音是可以通过算法来抑制的。 衡量噪音抑制的效果好不好,关键的技术指标有两个:
一般来说,信噪比不应该低于70dB,高保真音箱的信噪比应达到110dB以上。 噪音抑制的作用是要提高信噪比的同时保持语音音质不失真。考虑到狼人杀的应用场景要进行多人高频率强互动,狼人杀的语音方案要结合了声学心理学模型,信噪比要能够提高20dB以上,同时不损伤语音的音质,才能获得比较好的用户体验。 回声消除(AEC, Acoustic Echo Cancellation)如果说噪音抑制是狼人杀的基础痛点,那么回声消除就是狼人杀差异化的杀手锏。为什么那么说?狼人杀首先是个游戏平台,然后才是社交平台。作为游戏平台,要在轮流发言的杀人游戏环节解决噪音抑制问题,游戏平台的用户体验才能做好;作为社交平台,要在复盘讨论的社交环节解决回声消除问题,社交平台的用户体验才能差异化。然而,回声消除的技术难度十分高。因此,回声消除是狼人杀从游戏走向社交必须要打的硬仗。解决了,就是社交平台;解决不掉,就只是一款游戏。在资本市场上,游戏和社交产品的估值可是天壤之别的。 回声消除可以分为硬件层次的和软件层次的。一般来说,在硬件层次,硬件会做一些基础的回声消除工作。目前的音频终端硬件主要包括PC(Intel+Windows)、安卓手机、和苹果手机。PC端没有做回声消除;安卓手机对回声消除做得不好,而且效果参出不齐;苹果手机的回声消除做得相对效果比较好。在软件层次,软件要抹平这些硬件平台的区别,确保在不同平台上回声消除的效果都要良好,都要保持一致。 这里只会简单介绍回声消除的原理,有详细学习需要的同学请自行百度之。从麦克风采集到的声音包括用户近端的有效声音加上近端回声(NE, Near Echo)。回声消除的目的就是要把近端回音消除掉。如果没有任何参考信号,要把近端回音消除掉是不可能完成的任务,软件算法无法区分哪些是有效声音信号,哪些是近端回音信号。 软件算法采用远端回声(FE, Far Echo)作为参考信号来消除回声。虽然近端回声和远端回声不完全相同,但是高度相关,可以通过一个函数来表示:NE=f(FE)。这个函数f(x)就是回声路径,表达了远端回声在空气中经过多次反射等环境影响以后如何变成近端回声的。从技术的角度看,回声消除就是要从麦克风采集到的声音中,把FE经过回声路径后变成的NE消除掉,本质上是对回声路径函数进行求解。 图1 回音消除的基本原理 回音消除的效果好不好,该如何衡量?有两个指标可以衡量:1)回声有没有消除掉;2)在双讲条件下效果好不好。比较拓扑的说法是,回音消除要么没有消除完全,要么消除过度。如果没有消除完全,就会有回音漏掉;如果消除过度,就会带来失真。 狼人杀的应用场景对回声消除的要求十分的高。在复盘讨论环节,十来个用户同时开着麦克风和扬声器七嘴八舌进行摊牌对讲,十来路的回声,十几个人在抢话。在这种极端的语音环境中,即使在线下进行都有听不清的时候,更何况在线上进行。因此,回声消除是对狼人杀十分有挑战的技术。 低延迟关于语音视频通讯如何做到低延迟,笔者已经在小编()发表过的一篇技术专栏文章中做了详尽的探讨。请参照小编的文章,这里就不再展开论述了: “为了互动直播,如何让直播技术实现低延迟?” 狼人杀语音视频云的系统架构和直播云的系统架构比较接近,可以通过下图来展现。 图2 即构科技狼人杀音视频多路连麦系统架构 要降低语音视频通讯的延迟,要从三个方面入手:
语音视频处理和传输的链条比较长,从推流端开始到拉流端总共至少经过九个环节。 图3 语音视频处理和传输的环节 一个语音视频通讯系统除了要有实时的系统架构,还要在每个环节上做到最优,每个环节能节省一点点时间,整体节省的时间就会相当可观。 直播的语音视频通讯包括了语音和视频的传输和处理,而狼人杀的语音视频通讯目前大部分以语音为基础,视频作为差异化点。视频码率一般会达到几百兆,音频的码率一般会达到几十兆,两者大概是十倍的差别。 (编辑:ASP站长网) |