地点:365亚博 >ag亚博网站 >研究与开发>先进的技术>区域声音增强


研究与开发

区域声音增强

背景

随着深度学习的出现,语音识别技术已经提高到实用水平,语音用户界面的使用已经扩展到各种场景。目前的语音识别技术可以在只有一个人对着智能手机或智能扬声器讲话的环境中无压力地使用。然而,语音识别系统在多人同时说话的环境下会出现故障,无法区分目标说话者和其他说话者,例如在客户服务柜台自动输入接待记录,以及配备语音用户界面的自助终端。OKI正在研究和开发“区域声音增强”技术来解决这些语音用户界面问题。

特性

区域扩声技术通过在目标区域周围放置多个麦克风阵列来拾取目标区域内的声音。对于普通的麦克风,当周围的噪音很大时,就很难听到说话人的声音。即使使用具有指向性的麦克风,如枪式麦克风或麦克风阵列,也会收集来自目标区域方向的噪声。该技术从不同位置跨越目标区域的两个麦克风阵列的指向性。每个麦克风阵列的指向性中通常包含的分量被估计为目标区域内的声音,其他所有的分量都被抑制。

区域扩声技术使语音识别系统即使在目标区域周围有其他使用者,也可以只识别目标区域内的人的声音,从而使客户服务柜台和自助终端的通讯畅通。

区域声音增强的图解

区域声音增强图像的插图

正常的麦克风

正常的麦克风
由于其他人的声音和背景噪音,说话人的声音听不清楚。

OKI的“区域声增强技术”

OKI的“区域声增强技术”图像
即使周围有噪音,也能清楚地听到说话人的声音。

这一页的顶部