美加墨世界杯_2014年世界杯决赛

首页 >> 波兰世界杯

智能音箱为什么可以听懂人话?

“如果我说‘小爱同学，播放《孤勇者》’，音箱内部到底发生了什么，为什么能马上播放出这首唱？它是不是有魔法？今天我们就来揭开这个...

“如果我说‘小爱同学，播放《孤勇者》’，音箱内部到底发生了什么，为什么能马上播放出这首唱？它是不是有魔法？今天我们就来揭开这个秘密！”

第一步用“耳朵”听清楚

这里的“耳朵”就是麦克风阵列，这里的麦克风就是我们常见的话筒，麦克风阵列本质上和话筒没有区别。它是由一定数目的声学传感器（麦克风）按照一定规则排列的多麦克风系统。麦克风阵列可以按点线面进行分类:

麦克风阵列还具备声源定位|抑制噪音|增强人声|消除回声等功能。

声源定位:通过声音感知人所在的方向，从而实现对目标声源的跟踪,这为后续的抑制噪音，形成波束做准备。原理很简单是先得到声源到各个麦克风的时间差，然后计算出声源的坐标。

抑制噪音|增强人声:有了前面的声源坐标，我们就可以给目标声源范围内的麦克风”开绿灯“，给其他的麦克风适当”踩刹车”

消除回声:消除自己的声音，就拿音箱来说，播放歌曲时，如果没有去除回声，那么就会陷入自问自答的死循环。做法很简单，就是记录下播放的声音源作为参考信号，在接收到的声音信息与参考信号相似时，叠加反向信号进行抑制

第二步把声音变成文字

通过麦克风阵列采集到的声音，要在这个步骤转换成文字。这个转换魔法就叫语音识别(ASR)。

特征提取:这个过程相当于”行李过安检机”,将声音波形按固定时间长度送入MFCC(梅尔频率倒谱系数)系统，它相当安检机，给声音拍X光片，提取出这段声音的声纹特征去掉无效的杂讯。MFCC依据人的听觉机理进行处理，比如:人对低频敏感，高频不敏感，就可以对低频进行增强，高频进行压缩；再比如:两个相同频率的音调同时发声时，人只能听到一个音调，这样就可以过滤掉其中一个音调；

过声学模型