网站首页 波兰世界杯 世界杯球星排名 直播吧世界杯
首页 >> 波兰世界杯
智能音箱为什么可以听懂人话?

智能音箱为什么可以听懂人话?

“如果我说‘小爱同学,播放《孤勇者》’,音箱内部到底发生了什么,为什么能马上播放出这首唱?它是不是有魔法?今天我们就来揭开这个...

“如果我说‘小爱同学,播放《孤勇者》’,音箱内部到底发生了什么,为什么能马上播放出这首唱?它是不是有魔法?今天我们就来揭开这个秘密!”

第一步用“耳朵”听清楚

这里的“耳朵”就是麦克风阵列,这里的麦克风就是我们常见的话筒,麦克风阵列本质上和话筒没有区别。它是由一定数目的声学传感器(麦克风)按照一定规则排列的多麦克风系统。麦克风阵列可以按点线面进行分类:

麦克风阵列还具备声源定位|抑制噪音|增强人声|消除回声等功能。

声源定位:通过声音感知人所在的方向,从而实现对目标声源的跟踪,这为后续的抑制噪音,形成波束做准备。原理很简单是先得到声源到各个麦克风的时间差,然后计算出声源的坐标。

抑制噪音|增强人声:有了前面的声源坐标,我们就可以给目标声源范围内的麦克风”开绿灯“,给其他的麦克风适当”踩刹车”

消除回声:消除自己的声音,就拿音箱来说,播放歌曲时,如果没有去除回声,那么就会陷入自问自答的死循环。做法很简单,就是记录下播放的声音源作为参考信号,在接收到的声音信息与参考信号相似时,叠加反向信号进行抑制

第二步把声音变成文字

通过麦克风阵列采集到的声音,要在这个步骤转换成文字。这个转换魔法就叫语音识别(ASR)。

特征提取:这个过程相当于”行李过安检机”,将声音波形按固定时间长度送入MFCC(梅尔频率倒谱系数)系统,它相当安检机,给声音拍X光片,提取出这段声音的声纹特征去掉无效的杂讯。MFCC依据人的听觉机理进行处理,比如:人对低频敏感,高频不敏感,就可以对低频进行增强,高频进行压缩;再比如:两个相同频率的音调同时发声时,人只能听到一个音调,这样就可以过滤掉其中一个音调;

过声学模型