<menuitem id="3fdxt"></menuitem>

<var id="3fdxt"></var><cite id="3fdxt"><i id="3fdxt"><address id="3fdxt"></address></i></cite>
<address id="3fdxt"><ins id="3fdxt"><ruby id="3fdxt"></ruby></ins></address>
<var id="3fdxt"></var>
<progress id="3fdxt"></progress>
<th id="3fdxt"></th><var id="3fdxt"></var>
<cite id="3fdxt"><span id="3fdxt"><address id="3fdxt"></address></span></cite>
<menuitem id="3fdxt"><span id="3fdxt"></span></menuitem>
<progress id="3fdxt"></progress>
<cite id="3fdxt"><span id="3fdxt"></span></cite>
广告合作等您加入0571-87759920

企讯案例专题专栏评测焦点市场时事访谈智慧家居

人工智能促进语音识别技术发展

技术交流2018年10月09日 09:21来源£º 传感器技术
¡¡¡¡语音是人类自然的交互方式¡£计算机发明之后£¬让机器能够“听懂”人类的语言£¬理解语言中的内在含义£¬并能做出正确的回答就成为了人们追求的目标¡£这个过程中主要涉及3种技术£¬即自动语音识别£»自然语言处理(目的是让机器能理解人的意图)和语音合成(目的是让机器能说话)
 
¡¡¡¡与机器进行语音交流£¬让它听明白你在说什么¡£语音识别技术将人类这一曾经的梦想变成了现实¡£语音识别技术就是“机器的听觉系统”£¬该技术让机器通过识别和理解£¬把语音信号转变为相应的文本或命令¡£
 
¡¡¡¡现代智能语音识别技术的起源及发展
 
¡¡¡¡在1952年的贝尔研究所£¬Davis等人研?#23631;?#19990;界上个能识别10个英文数字发音的实验系?#22330;?960年英国的Denes等人研?#23631;?#20010;计算机语音识别系?#22330;?br /> 
¡¡¡¡大规模的语音识别研究?#21152;?#19978;世纪70年代以后£¬并在小词汇量¡¢孤立词的识别方面取得了实?#24066;?#30340;进展¡£上世纪80年代以后£¬语音识别研究的重点逐渐转向大词汇量¡¢非特定人连续语音识别¡£
 
¡¡¡¡同时£¬语音识别在研究思路上也发生了重大变化£¬由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路¡£此外£¬?#30340;?#26377;专家再次提出了将神经网络技术引入语音识别问题的技术思路¡£
 
¡¡¡¡上世纪90年代以后£¬在语音识别的系?#26216;?#26550;方面并没有什么重大突破¡£但是£¬在语音识别技术的应用?#23433;?#21697;化方面出现了很大的进展¡£比如£¬DARPA是在上世界70年代由美国国防部远?#25226;?#31350;计划局资助的一项计划£¬旨在支持语言理解系统的研究开发工作¡£进入上世纪90年代£¬DARPA计划仍在?#20013;?#36827;行中£¬其研究重点已转向识别装置中的自然语言处理部分£¬识别任务设定为“航?#31456;?#34892;信息检索”¡£
 
¡¡¡¡我国的语音识别研究起?#21152;?958年£¬由中国科学院声学所利用电子管电路识别10个元音¡£由于当时条件的限制£¬中国的语音识别研究工作一直处于缓慢发展的阶段¡£直至1973年£¬中国科学院声学所开始了计算机语音识别¡£
 
¡¡¡¡进入上世纪80年代以来£¬随着计算机应用技术在我国逐渐普及和应用以及数?#20013;?#21495;技术的进一步发展£¬国内许多单位具备?#25628;?#31350;语音技术的基本条件¡£与此同时£¬国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点¡£在这?#20013;?#24335;下£¬国内许多单位?#36861;?#25237;入到这项研究工作中去¡£
 
¡¡¡¡1986年£¬语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题¡£在“863”计划的支持下£¬中国开始组织语音识别技术的研究£¬并决定了每隔两年召开一次语音识别的专题会议¡£自此£¬我国语音识别技术进入了一个新的发展阶段¡£
 
¡¡¡¡自2009年以来£¬借助机器学习领域深度学?#25226;?#31350;的发展以及大数据语料的积累£¬语音识别技术得到突飞猛进的发展¡£
 
¡¡¡¡将机器学习领域深度学?#25226;?#31350;引入到语音识别声学模型训练£¬使?#20040;øRBM预训练的多层神经网络£¬提高了声学模型的准确率¡£在此方面£¬微软公司的研究人员取得了突破性进展£¬他们使用深层神经网络模型(DNN)后£¬语音识别错误?#24335;?#20302;了30%£¬是近20年来语音识别技术方面快的进步¡£
 
¡¡¡¡2009年前后£¬大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络£¬该解码网络可以把语言模型¡¢词典和声学共享音字集统一集成为一个大的解码网络£¬提高了解码的速度£¬为语音识别的实时应用提供了基础¡£
 
¡¡¡¡随着互联网的快速发展£¬以及移动终端的普及应用£¬可?#28304;?#22810;个渠道获取大量文本或语音方面的语料£¬这为语音识别中的语言模型和声学模型的训练提供了丰富的资源£¬使得构建通用大规模语言模型和声学模型成为可能¡£
 
¡¡¡¡在语音识别中£¬训练数据的匹配和丰富性是推动系统性能提升的重要因素之一£¬但是语料的标注和分析需要长期的积累?#32479;?#28096;£¬随着大数据时代的来临£¬大规模语料资源的积累将提到战略高?#21462;?br /> 
¡¡¡¡现如今£¬语音识别在移动终端上的应用为火热£¬语音对话机器人¡¢语音助手¡¢互动工具等层出不穷£¬许多互联网公司?#36861;?#25237;入人力¡¢物力和?#23631;?#23637;开此方面的研究和应用£¬目的是通过语音交互的新颖和便利模式迅速占领?#31361;?#32676;¡£
 
¡¡¡¡语音识别技术的主要方法
 
¡¡¡¡目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)¡¢隐马尔可夫模型(HMM)¡¢矢量量化(VQ)¡¢人工神经网络(ANN)¡¢支持向量机(SVM)等方法¡£
 
¡¡¡¡动态时间规整算法(Dynamic Time Warping£¬DTW)是在非特定人语音识别中一种简单有效的方法£¬该算法基于动态规划的思想£¬解决了发音长短不一的模板匹配问题£¬是语音识别技术中出现?#26174;¼‹?#36739;常用的一种算法¡£在应用DTW算法进行语音识别时£¬就是将已经预处理和?#31181;?#36807;的语音测试信号和参考语音模板进行比较以获取他们之间的相似度£¬按照某种距离测度得出两模板间的相似程度并选择zui佳路径¡£
 
¡¡¡¡隐马尔可夫模型(HMM)是语音信号处理中的一种统计模?#20572;?#26159;由Markov链演变来的£¬所以它是基于参数模型的统计识别方法¡£由于其模式库是通过反复训练形成的与训练输出信号吻合概率zui大的zui佳模型参数而不是预先储存好的模式样本£¬且其识别过程中运?#20040;?#35782;别语音序列与HMM参数之间的似然概率达到zui大值所对应的zui佳状态序列作为识别输出£¬因此是较理想的语音识别模型¡£
 
¡¡¡¡矢量量化(Vector Quantization)是一种重要的信号压缩方法¡£与HMM相比£¬矢量量化主要?#35270;?#20110;小词汇量¡¢孤立词的语音识别中¡£其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化¡£把矢量空间分成若干个小区域£¬每个小区域寻找一个代表矢量£¬量化时落入小区域的矢量就用这个代表矢量代替¡£矢量量化器的设计就是从大量信号样本中训练出好的码书£¬从实?#24066;?#26524;出发寻?#19994;?#22909;的失真测度定义公式£¬设计出zui佳的矢量量化系统£¬用少的搜索和计算失真的运算量实现zui大可能的平均信噪?#21462;?br /> 
¡¡¡¡在实际的应用过程中£¬人们还研究了多种降低复杂度的方法£¬包括无?#19988;?#30340;矢量量化¡¢有?#19988;?#30340;矢量量化和模糊矢量量化方法¡£
 
¡¡¡¡人工神经网络(ANN)是20世纪80年代末期提出的一?#20013;?#30340;语音识别方法¡£其本质上是一个自?#35270;?#38750;线性动力学系统£¬模拟了人类神经活动的原理£¬具有自?#35270;?#24615;¡¢并行性¡¢鲁棒性¡¢容错性和学习特性£¬其强大的分类能力和输入—输出?#25104;?#33021;力在语音识别中都很有吸引力¡£其方法是模拟人脑思维机制的工程模?#20572;?#23427;与HMM正好相反£¬其分类决策能力和对不确定信息的描述能力得到举世公认£¬但它对动态时间信号的描述能力尚不尽如人意£¬通常MLP分类器只能解决静态模式分类问题£¬并不涉及时间序列的处理¡£尽管学者们提出了许多含反馈的结构£¬但它们仍不足以刻画诸如语音信号这种时间序列的动态特性¡£由于ANN不能很好地描述语音信号的时间动态特性£¬所以常把ANN与传统识别方法结合£¬分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点¡£近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展£¬其识别率已经接近隐含马尔可夫模型的识别系统£¬进一步提高了语音识别的鲁棒性和准确率¡£
 
¡¡¡¡支持向量机(Support vector machine)是应用统计学理论的一?#20013;?#30340;学习机模?#20572;?#37319;用结构风险小化原理(Structural Risk Minimization£¬SRM)£¬有效克服了传统经验风险小化方法的缺点¡£兼?#25628;?#32451;误差和泛化能力£¬在解决小样本¡¢非线性?#26696;?#32500;模式识别方面有许多优越的性能£¬已经被广泛地应用到模式识别领域¡£
 
¡¡¡¡语音识别技术模型在中深度神经网络的应用
 
¡¡¡¡深度学习是指利用多层的非线性信号和信息处理技术£¬通过有监?#20132;?#32773;无监督的方法£¬进行信号转换¡¢特征提取以及模式分类等任务的机器学习类方法的总称¡£因为采用深层结构模型对信号和信息进行处理£¬所以这里称为“深度”学习¡£传统的机器学习模型很多属于浅层结构模?#20572;?#20363;如支持向量机¡¢GMM¡¢HMM¡¢条件随机场¡¢线性或者非线性动态系?#22330;?#21333;隐层的神经网络等¡£
 
¡¡¡¡原始的输入信号只经过比较少的层次(通常是一层)的线性或者非线性处理?#28304;?#21040;信号与信息处理£¬是这些结构模型的共同特点¡£浅层模型的优点在于在数学上有比较完善的算法£¬并且结构简单¡¢?#23376;?#23398;习¡£但是浅层模型使用的线性或者非线性变换组合比较少£¬对于信号中复杂的结构信息并不能有效地学习£¬对于复?#26377;?#21495;的表达能力有局限性¡£而深层结构的模型则更适合于处理复杂类型的信号£¬原因在于深层结构具备多层非线性变换£¬具有更强的表达与建模能力¡£
 
¡¡¡¡人类语音信号产生和感知就是这样一个极其复杂的过程£¬并?#20197;?#29983;物学上被证明具有明显的多层次甚至深层次的处理结构£¬所以£¬对于语音识别任务£¬采?#20204;?#23618;结构模型明显有很大的局限性¡£利用深层次结构中的多层非线性变换进行语音信号中的结?#22815;?#20449;息和更高层信息的提取£¬是更加合理的选择¡£
 
¡¡¡¡DNN在语音识别系统中的应用和局限性
 
¡¡¡¡从2011年之后£¬基于DNN-HMM声学模型在多种语言¡¢多种任务的语音识别上取得了比传统 GMM-HMM 声学模型大幅度且一致性的效果提升¡£基于DNN-HMM语音识别系统的基本框架如图所示£¬采用DNN替换GMM模型来建模语音观察概率£¬是其和传统的 GMM-HMM 语音识别系统zui大的不同¡£前馈型深度神经网络由于比较简单£¬是初主流的深层神经网络¡£
 
¡¡¡¡语音识别的特征提取需要首先对波形进行加窗和?#31181;¡£?#28982;后再提取特征¡£训练 GMM 模型的输入是单帧特征£¬DNN则一般采用多个相邻帧拼接在一起作为输入£¬这种方法使得语音信号更长的结构信息得以描述£¬研究表明£¬特征拼接输入是DNN相比于GMM可以获得大幅度性能提升的关键因素¡£由于说话时的协同发音的影响£¬语音是一种各帧之间相关性很强的复杂时变信号£¬正要说的字的发音和前后好几个字?#21152;?#24433;响£¬并且影响的长?#20154;?#30528;说话内容的不同而时变¡£虽然采用拼接帧的方式可以学到一定程度的上下文信息£¬但是由于DNN输入的窗长(即拼接的帧数)是事先固定的£¬因此DNN的结构只能学习?#28966;?#23450;的输入到输入的?#25104;?#20851;系£¬导致其对时序信息的更长时相关性的建模灵活性不足¡£
 
¡¡¡¡递归神经网络在声学模型中的应用
 
¡¡¡¡语音信号具有明显的协同发音现象£¬因此必须考虑长时相关性¡£由于循环神经网络具有更强的长时建模能力£¬使得 RNN也逐渐替代 DNN成为语音识别主流的建模方案¡£DNN 和 RNN 的网络结构如图所示£¬RNN在隐层?#26174;?#21152;了一个反馈连接£¬是其和DNNzui大的不同¡£这意味着RNN 的隐层当前时刻的输入不但包括了来自上一层的输出£¬还包括前一时刻的隐层输出£¬这种循环反馈连接使得RNN原则上可以看到前面所有时刻的信息£¬这相当于RNN具备了历史?#19988;?#21151;能¡£对于语音这种时序信号来说£¬使用RNN建模显得更加适合¡£
 
¡¡¡¡但是£¬传统的 RNN 在训练过程中存在梯度消失的问题£¬导致该模型难以训练¡£为了克服梯度消失问题£¬有研究人员提出了长短时?#19988;äRNN¡£LSTM-RNN 使用输入门¡¢输出门和遗忘门来控制信息流£¬使得梯度能在相对更长的时间跨度内稳定地传播¡£双向LSTM-RNN (BLSTM-RNN)对当前帧进行处理时£¬可以利用历史的语音信息和未来的语音信息£¬从而容易进行更加准确的决策£¬因此也能取得比单向LSTM更好的性能提升¡£
 
¡¡¡¡尽管双向LSTM-RNN的性能更好£¬但它并不适合实时系统£¬由于要利用较长时刻的未来信息£¬会使得该系统具有很大时延£¬主要用于一些离线语音识别任务¡£基于此£¬研究人员提出?#25628;映?#21463;控 BLSTM和行卷积 BLSTM 等模型结构£¬这些模型试图构建单向LSTM和BLSTM之间的折中£º即前向LSTM保持不变£¬针对用来?#27425;?#26469;信息的反向LSTM做了优化¡£在LC-BLSTM结构中£¬标准的反向LSTM被带有多N帧前瞻量的反向LSTM替代£¬而在行卷积模型中被集成了N帧前瞻量的行卷积替代¡£
 
¡¡¡¡基于FSMN的语音识别系统
 
¡¡¡¡目前国际上已经有不少学术或工业机构在进行 RNN 架构下的研究¡£目前效果理想的基于BLSTM-RNN 的语音识别系统存在时延过大的问题£¬这对于实时的语音交互系统(如语音输入法)£¬并不合适¡£尽管可以通过 LC-BLSTM 和行卷积BLSTM将BLSTM做到实时语音交互系统£¬由于RNN具有比DNN更加复杂的结构£¬海量数据下的RNN模型训练需要耗费大量的时间¡£后£¬由于RNN对上下文相关性的拟合较强£¬相对于DNN更容易陷入过拟合的问题£¬容易因为训练数据的局部问题而带来额外的异常识别错误¡£
 
¡¡¡¡为了解决以上问题£¬科大讯飞结合传统的DNN框架和RNN的特点£¬研发出了一种名为前馈型序列?#19988;?#32593;络的新框架£¬具体如图所示¡£FSMN的结构采用非循环的前馈结构£¬只需要180 ms的时延£¬就达到了和BLSTM-RNN相当的效果¡£
 
¡¡¡¡FSMN 的结?#25925;?#24847;如图所示£¬其主要是基于传统DNN结构的改进£¬在DNN的隐层旁增加了一个“?#19988;?#27169;块”£¬这个?#19988;?#27169;块用来存储对判?#31995;?#21069;语音帧有用的语音信号的历史信息和未来信息¡£上图画出了?#19988;?#27169;块左右各?#19988;äN 帧语音信息的时序展开结构¡£需?#19988;?#30340;历史和未来信息长度N可根据实际任务的需要来调整¡£FSMN ?#19988;?#22359;的?#19988;?#21151;能是使?#20204;?#39304;结?#25925;?#29616;的£¬这点有别于传统的基于循环反馈的 RNN 模型¡£采用这?#26234;?#39304;结构存储信息有两大好处£º首先£¬传统双向RNN必须等待语音输入结束才能对当前语音帧进行判断£¬双向FSMN对未来信息进行?#19988;?#26102;只需要等待有限长度的未来语音帧即可£¬这个优点使得FSMN的时延是可控的¡£实验证明£¬使用双向FSMN结构£¬时延控制在180 ms?#26412;?#33021;取得和传统双向RNN相当的效果£»其次£¬传统简单的 RNN 实际并不能记住无穷长的历史信息£¬而是只能记住有限长的历史信息£¬原因是其训练过程中存在梯度消失的问题¡£然而 FSMN的?#19988;?#32593;络完全基于前馈展开£¬在模型训练过程中£¬梯?#20173;?#27839;着?#19988;?#22359;与隐层的连接权重往回传给各个时刻£¬对判?#31995;?#21069;语音帧的影响的信息通过这些连接权重来决定£¬而且这种梯度传播是可训练的£¬并?#20197;?#20219;何时刻都是常数衰减£¬以上的实现方式使得FSMN也具有了类似LSTM 的长时?#19988;?#33021;力£¬这相当于使用了一种更为简单的方式解决了传统 RNN 中的梯度消失问题¡£另外£¬由于FSMN完全基于前馈神经网络结构£¬?#24425;?#24471;它的并行度更高£¬GPU计算能力可利用得更加充分£¬从而获得效率更高的模型训练过程£¬并且FSMN结构在稳定性方面也表现得更加出色¡£
 
¡¡¡¡基于卷积神经网络的语音识别系统
 
¡¡¡¡卷积神经网络的核心是卷积运算(或卷积层)£¬是另一种可以有效利用长时上下文语境信息的模型¡£继 DNN 在大词汇量连续语音识别上的成功应用之后£¬CNN 又在 DNN-HMM 混合模?#22270;?#26500;下被重新引入¡£重新引入CNN初只是为了解决频?#25163;?#30340;多变性来提升模型的稳定性£¬因为该混合模型中的 HMM 已经有很强的处理语音识别中可变长?#28982;?#35821;问题的能力¡£早期CNN-HMM模型仅使用了 1¡«2 个卷积层£¬然后和全连接 DNN层?#35757;?#22312;一起¡£后来£¬LSTM 等其他 RNN 层也被集成到了该模型中£¬从而形成了所谓的CNN-LSTM-DNN(CLDNN)架构¡£
 
¡¡¡¡基于CNN-HMM框架的语音识别吸引了大量的研?#31354;”]?#20294;是始?#38556;视?#37325;大突破£¬基本的原因有两个£º首先是他们仍然采用固定长度的语音帧拼接作为输入的传?#22478;?#39304;神经网络的思路£¬导致模型不能看?#38454;?#22815;的上下文信息£»其次是他们采用的卷积层数很少£¬一般只有1¡«2层£¬把CNN视作一种特征提取器?#35789;?#29992;£¬这样的卷积网络结构表达能力十分有限¡£针对这些问题£¬科大讯飞在2016年提出了一种全新的语音识别框架£¬称为全序列卷积神经网络(deep fully convolutional neural network£¬DFCNN)¡£实验证明£¬DFCNN比 BLSTM 语音识别系统这个学术界和工业界强的系统识别率提升了 15%以上¡£
 
¡¡¡¡如图所示£¬DFCNN先对时域的语音信号进行?#36947;?#21494;变换得到语音的语谱图£¬DFCNN直接将一句语音转化成一张图像作为输入£¬输出单元则直接与终的识别结果(比如音节或者汉字)相对应¡£DFCNN的结构中把时间和频?#39318;?#20026;图像的两个维度£¬通过较多的卷积层?#32479;?#21270;(pooling)层的组合£¬实现对整句语音的建模¡£DFCNN的原理是把语谱图看作带有特定模式的图像£¬而有经验的语音学专家能够从中看出里面说的内容¡£
 
¡¡¡¡为了理解 DFCNN 的优势所在£¬下面从输入端¡¢模型结构和输出端 3 个角度更具体地分析¡£首先£¬在输入端£¬传统语音识别系统的提取特征方式是在?#36947;?#21494;变换后用各种类型的人工设计的滤波器£¬比如Log Mel-Filter Bank£¬造成在语音信?#29260;?#22495;£¬尤其是高频区域的信息损失比较明显¡£另外£¬传统语音特征采用非常大的帧?#35780;?#38477;低运算量£¬导致时域上的信息会有损失£¬当说话人语速较快的时候£¬这个问题表现得更为突出¡£而DFCNN将语谱图作为输入£¬避免了频域和时域两个维度的信息损失£¬具有天然的优势¡£其次£¬从模型结构上来看£¬为了增强 CNN 的表达能力£¬ DFCNN 借鉴了在图像识别中表现突出的网络配置£¬与此同时£¬为了保证 DFCNN 可以表达语音的长时相关性£¬通过卷积池化层的累积£¬DFCNN能看?#38454;?#22815;长的历史和未来信息£¬有了这两点£¬和BLSTM的网络结构相比£¬DFCNN在顽健性上表现更加出色¡£后£¬从输出端来看£¬DFCNN比较灵活£¬可以方便地?#25512;?#20182;建模方式融合£¬比如和连接时序分类模型方案结合£¬以实现整个模型的?#35828;?#31471;声学模型训练¡£DFCNN语音识别框架可以方便地?#25512;?#20182;多个技术点结合£¬实验证明£¬在数万小时的中文语音识别任务上£¬和目前业界强的语音识别框架 BLSTM-CTC 系统相比£¬ DFCNN系统获得了额外15%的性能提升¡£
 
¡¡¡¡大规模语音数据下神经网络声学模型的训练
 
¡¡¡¡相比于传统的 GMM-HMM 系统£¬基于DNN-HMM 语音识别系统取得了巨大的性能提升¡£但是DNN声学模型的训练却非常耗时¡£举个例子£¬在一个配置为E5-2697 v4的CPU上进行 2 万小时规模的语音数据的声学模型训练£¬大概需要 116 天左右才能训练完¡£造成这?#26234;?#20917;的潜在原因是将随机梯度下降算法作为神经网络训练中的基本算法£¬SGD算法收敛相对较慢£¬而且是一个串行算法£¬很难进行并行化训练¡£而目前工业界主流的语音识别系?#25104;?#21450;的训练数据一般为几千小时甚至几万小时级别£¬因此£¬提高在大规模语音数据下深度神经网络的训练速度和训练效率£¬也成为?#25628;?#31350;热点和必须解决的问题¡£
 
¡¡¡¡由于深度神经网络的模型参数非常稀疏£¬利用这个特点£¬将深度神经网络模型中超过 80%的较小参数都设置为 0£¬几乎没有性能损失£¬同时模?#32479;?#23544;大大减少£¬但是训练时间并没有明显减小£¬原因是参数稀疏?#28304;?#26469;的高?#20154;?#26426;内存访问并没有得到太多的优化¡£进一步地£¬在深度神经网络中£¬用两个低秩矩阵的乘积表示权重矩阵£¬实现了30%¡«50%的效率提升¡£
 
¡¡¡¡过使用多个CPU或者GPU并行训?#38450;?#35299;决神经网络训练效率是另外一种可行的方法¡£通常方式是£º把训练数据分成许多小块后并行地送到不同的机器来进行矩阵运算£¬从而实现并行训练¡£优化方案是£º在模型的每遍迭代中£¬先将训练数据分成N个完全不相交的子集£¬然后在每个子集中训练一个sub-MLP£¬后把这些sub-MLP进行合并网络结合¡£为了进一步提升并行效率£¬在上千个CPU核的计算集群实现了这种方式£¬深层网络的训练主要是利用异步梯度下降算法¡£将异步梯度下降算法应用到了多个GPU中¡£一种管道式的 BP 算法被提了出来£¬该方法利用不同的GPU单元来计算神经网络中不同层£¬实现并行训练的效果¡£实验证明£¬相对使用单个GPU训练£¬该方法通过使用4个GPU实现了3.1倍左右的效率提升¡£然而£¬不同计算单元之间极其频繁的数据传递成为该类方法提升训练效率的主要瓶颈¡£为此£¬为了更好地实现神经网络并行训练£¬一?#20013;?#30340;基于状态聚类的多深层神经网络建模方法被提出£¬该方法先将训练数据在状态层面进行聚类£¬在状态层面进行不相交的子集划分£¬使得不同计算单元神经网络之间的数据传递规模大幅度减小£¬从而实现每个神经网络完全独立的并行训练¡£使用4块GPU£¬在聚类数为4类的情况下£¬在SWB (SwitchBoard)数据集上的实验表明£¬这种状态聚类的多神经网络方法取得了约4倍的训练效率提升¡£
 
¡¡¡¡深度学习理论除了在声学模型建模上获得了广泛的应用外£¬在语音识别系统另外的重要组件——语言模型上也得到了应用¡£在深度神经网络普及之前£¬语音识别系统主要采用传统的统计语言模型N-gram模型进行建模¡£N-gram模型也具备明显的优点£¬其结构简单?#24050;?#32451;效率很高£¬但是 N-gram 的模型参数会随着?#36164;?#21644;?#26102;?#30340;增大而指数?#23545;?#38271;£¬导致无法使用更高的?#36164;ý£?#24615;能容?#30528;?#21040;瓶?#20445;?#22312;训练语料处于相对稀疏的状态时£¬可以借助?#31561;?discounting)和回溯(backing-off)等成熟的?#20132;?#31639;法解决低频词或不可见词的概?#20351;?#35745;问题£¬以获得比较可靠的模型估计¡£
 
¡¡¡¡在20世?#32479;õ£?#19968;些浅层前馈神经网络被用于统计语言模型建模¡£神经网络语言模型是一种连续空间语言模?#20572;¬Æ交?#30340;词概率分布函数使得它对于训练语料中的低频词和不可见词的概?#20351;?#35745;更为顽健£¬具有更好的推广性£¬在语音识别任务上也取得了显著的效果¡£近?#25913;ݏ?#30456;关研究人员也将深层神经网络用于语言模型建模£¬并取得了进一步的性能提升¡£
 
¡¡¡¡深度学习¡¢大数据和云计算之间的关系
 
¡¡¡¡基于深度学习的语音识别技术在21世?#32479;?#36208;向舞台的中央£¬并不只是由于深度学习类机器学习算法的进步£¬而是大数据¡¢云计算和深度学习这3个要素相互促进的结果¡£
 
¡¡¡¡不同于之前 GMM-HMM 语音识别框架表达能力有限¡¢效果对于大规模数据易饱和的情况£¬深度学习框架所具备的多层非线性变换的深层结构£¬则具有更强的表达与建模能力£¬使得语音识别模型对复杂数据的挖掘和学习能力得到了的提升£¬使得更大规模的海量数据的作用得以充分的发挥¡£大数据就像奶粉一样£¬“哺育”了深度学习算法£¬让深度学习算法变得越来越强大¡£
 
¡¡¡¡随着移动互联网¡¢物联网技术和产品的普及£¬更重要的是采用云计算的方式£¬使得多种类型的海量数据得以在云端汇集¡£而?#28304;?#35268;模的数据的运算的要求则又显著提升了对于云计算方式的?#35272;担?#22240;此云计算成为了本次深度学?#26696;?#21629;的关键推手之一¡£深度学习框架在云端的部署£¬则显著增强了云计算的能力¡£
 
¡¡¡¡正是由于深度学习¡¢大数据和云计算三者的相互促进£¬才成就了语音技术的进步£¬成就了人工智能的浪潮¡£
@安防展览网AFzhan

扫一扫£¬官方微博互动多

微信号£ºAFzhan

扫一扫£¬安防讯息尽收眼底

点击这里给我发消息 全年征稿 / 资讯合作 联系邮箱£º[email protected]


  • ¢Ù凡本网注明"来源£º安防展览网"的所有作品£¬版权均属于安防展览网£¬转载请必须注明
    安防展览网¡£违反者本网将追究相关法律责任¡£
  • ¢Ú企业发布的公司新闻¡¢技术文章¡¢资料下载等内容£¬如涉及侵权¡¢违规遭投诉的£¬一律由发?#35745;?#19994;
    自行承担责任£¬本网有权删除内容并追溯责任¡£
  • ¢Û本网转载并注明自其它来源的作品£¬目的在于传递更多信息£¬并不代表本网赞同其观点或证实其内
    容的真实性£¬不承担此类作品侵权行为的直接责任及连带责任¡£其他媒体¡¢网站或个人从本网转载时£¬
    必须保留本网注明的作?#38450;?#28304;£¬并自负版权等法律责任¡£
  • ¢Ü如涉及作品内容¡¢版权等问题£¬请在作品发表之日起一周内与本网联系£¬否则视为?#29260;?#30456;关权利¡£

免费注册后£¬你可以
了解安防行业更多资讯
查看安防行业供求信息
凸显安防行业自身价值

马上注册会员

想快速被买家?#19994;?#21527;
只需要发?#23478;?#26465;商机£¬
被买家?#19994;?#30340;机会高达
90%£¡还等什么£¿

马上发布信息

编辑精选

更多

高端访谈

更多
  • ZNV力维曾涛£º立足AIoT 赋能安防创造更大价值
  • 艾礼安£º防盗报警产品发展现状与趋势
  • 安防行业探索者 17载风云人生的精彩演绎
  • 海?#20302;?#35270;王星£º全方位保障数据安全 从?#27809;?#33853;地人工智能
  • 熙菱信息王继能£ºAI实?#25509;?#29992; 警务合作有保障
  • 专访建投数据王克宝£º?#28304;?#25968;据管理平台为中心 加快人工智能落地应用
  • 大华股份许焰£ºHOC 体系化布局人工智能大数据产业
  • ¡¾监狱特辑¡¿¡°零距离¡±接触高墙内声音
  • 刘双广£º车联网深度布局 谋差异化突围
  • 电子期刊

    更多

    专题推荐

    更多

    返回首页
    ţͼƬ
    <menuitem id="3fdxt"></menuitem>

    <var id="3fdxt"></var><cite id="3fdxt"><i id="3fdxt"><address id="3fdxt"></address></i></cite>
    <address id="3fdxt"><ins id="3fdxt"><ruby id="3fdxt"></ruby></ins></address>
    <var id="3fdxt"></var>
    <progress id="3fdxt"></progress>
    <th id="3fdxt"></th><var id="3fdxt"></var>
    <cite id="3fdxt"><span id="3fdxt"><address id="3fdxt"></address></span></cite>
    <menuitem id="3fdxt"><span id="3fdxt"></span></menuitem>
    <progress id="3fdxt"></progress>
    <cite id="3fdxt"><span id="3fdxt"></span></cite>
    <menuitem id="3fdxt"></menuitem>

    <var id="3fdxt"></var><cite id="3fdxt"><i id="3fdxt"><address id="3fdxt"></address></i></cite>
    <address id="3fdxt"><ins id="3fdxt"><ruby id="3fdxt"></ruby></ins></address>
    <var id="3fdxt"></var>
    <progress id="3fdxt"></progress>
    <th id="3fdxt"></th><var id="3fdxt"></var>
    <cite id="3fdxt"><span id="3fdxt"><address id="3fdxt"></address></span></cite>
    <menuitem id="3fdxt"><span id="3fdxt"></span></menuitem>
    <progress id="3fdxt"></progress>
    <cite id="3fdxt"><span id="3fdxt"></span></cite>