鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
日常想给家里的蠢猫拍个视频配个音,需要几步?
不不不,现在有了AI的加持,只需打开App,输入文本,秒秒钟就能搞定。
不只是四川话配音,东北老妹音也可以整起来:
△快手@大天666
再也不怕隔壁工位东北小哥嘲笑我的台湾腔东北话了。
甚至,日常做饭小视频,也可以配出高级感:
△快手@xcpangdahai
是不是有点《舌尖上的中国》内味了?
实现如此功能的,就是快手快影最新上线的AI黑科技——智能配音。
输入文字,AI配音
所谓智能配音,就是用户只需输入文字,软件就能自动将之转化为高质量的视频配音。
使用方法非常简单。
首先,打开快影,导入视频素材。
「智能配音」的入口,就在App底部功能区的「音效」中。
点击「智能配音」,在弹出的输入框中输入想要配音的文字。
然后,选定一个「发音人」,也就是想要的音色、口音,再点击生成配音。
配音音频就秒速生成了。
另外,通过「字幕」→「加字幕」,完成字幕输入后,同样会出现「智能配音」的入口。操作相当方便。
目前,智能配音功能中一共有9位「发音人」可以pick。
标准播音腔,由「小姐姐」、「小哥哥」两位播音员提供。
在方言区,除了前文提及的「川妹子」和「东北老妹」,还有一位说粤语的「广东靓妹」24小时在线配音。
想要可爱卡通音,可以选择「小猪佩奇」、「蜡笔小新」。
而「舌尖同款」则提供了一个更加贴近真实的音色,纪录片范儿十足。
此前在快手直播间里出现过的小快机器人的音色,也被移植了过来。如果你是一位快手用户,选择「童真」,熟悉的声音就能出现在你的个人创作中啦。
技术不够,AI来凑。这下,给记录生活的小视频增色,就不用担心自己的声音不好听、剪辑水平不过硬了。
但别看此功能人人都能轻松上手,背后的技术挑战却也着实不小。
关键技术解析
文字转语音,其实并不是什么新鲜事。
不过,在此之前,此类语音合成技术主要面向B端用户,应用场景主要是资讯播报、订单播报、朗读听书等。
而对于C端用户,特别是有视频配音需求的用户而言,AI配音只有更生动、更自然、更具韵律,才能真正满足他们的需求。
另外,面向B端的产品,可以对文本的规律、意义进行限定。面向C端用户时,则无法预测用户的输入情况。
这就给快影这类剪辑软件的智能配音功能提出了更高的技术要求:
高表现力,要让用户觉得合成的语音接近自然语音,不做作;
高音质,要求输出的语音干净清晰,能最大程度还原配音角色的音色;
极低响应时间,为了优化用户的使用体验,合成引擎的首字响应时间要求低于100ms。
为此,快影的智能语音配音采用了端到端的深度神经网络语音参数生成算法。
端到端深度神经网络语音参数生成算法
传统的参数语音合成算法存在一个问题,那就是很难保留配音音色的说话风格特点,造成配音比较呆板、风格趋同。
而端到端的深度神经网络语音参数生成算法,可以让生成的语音参数连续性和稳定性得到较大幅度的提升,体现在听感上会使得语音更加真实和自然。
同时,为了能够最大限度保留配音角色的说话韵律风格,在生成算法中还加入了风格控制自回归编码网络,使得每一个配音音色的说话韵律特点都能体现出来。
高表现力深度网络声码器
另外,为了能最大程度还原智能配音角色的声音特点,快影智能配音还采用了基于深度神经网络的声码器进行语音生成。
在语音合成技术方面,业界常用的采样率是16kHz。
但对于儿童音色、卡通音色这样基频比较高的音色而言,这一采样率会对其明亮清澈的特点造成较大的损失。
快手的工程师因此选择了24kHz采样率。
不过,由于模型需要建模更多采样点之间的依赖关系,以及更多的高频信息,这时如果继续照搬16kHz采样率的技术方案,不仅合成速度慢,而且合成音频还会出现“毛刺”噪音。