谷歌推出了一项新技术,当服务无法维持一个叫做WaveNetEQ的稳定连接时,它可以提高Duo通话的音频质量。它基于谷歌DeepMind部门的技术,该部门的目标是用听起来像人类语音的人工噪声代替音频抖动,这种噪声是由机器学习产生的。
 

 
如果你曾经在互联网上打过电话,很可能你经历过音频抖动。当作为呼叫的一部分发送的音频数据包在途中丢失或以其他方式延迟或以错误的顺序到达时,就会发生这种情况。谷歌表示,99%的两个通话都会出现数据包丢失:其中20%的通话会丢失超过3%的音频,10%的通话会丢失超过8%。有很多音频需要替换。
 
每个呼叫应用程序都必须以某种方式处理这个数据包丢失,但谷歌表示,这些数据包丢失隐藏(PLC)过程可能难以填补60毫秒或更长时间的空白,而不会听起来像机器人或重复。WaveNetEQ的解决方案基于DeepMind的神经网络技术,它已经接受了来自48种不同语言的100多位演讲者的数据训练。
 
这个系统可以替换多少音频是有限制的。谷歌的技术旨在取代短音,而不是整词。所以在120毫秒后,它会消失并产生沉默。谷歌表示,它对该系统进行了评估,以确保它没有引入任何重要的新声音。另外,所有的处理也需要在设备上进行,因为Google Duo调用默认是端到端加密的。一旦通话的真实音频恢复,WaveNetEQ将无缝地淡入现实。
 
这是一项很好的技术,当互联网出现故障时,它可以让通话更容易理解。由于Pixel4手机去年12月的功能下降,该技术已经可以在Pixel4手机上进行二次通话,谷歌表示,正在将其推广到其他未命名的手机上。