邓力：以独特视角诠释语音识别领域新技术进展

发布时间：2016年08月10日 13:23来源：智能制造网编辑：人气：61589

　　邓力：我们在第12章讲了迁移学习，并举了用其他语言的语料帮助一个特定语言的语音识别的例子。跨语言能共享DNN隐层架构有很强的物理和认知的基础。不论什么语言，其发音器官（主要包括声道和声门）大体相似。人类语音感知机制是同生成机制紧密相连的。所以DNN作为语音感知层的模型在高层上共享隐层是很自然的思想。
　　
　　12章讲的所有例子都是基于音素及其左右context作为基本语音单元。我觉得如果能把乔姆斯基的生成式音韵结构用上来定义基本语音单元做迁移学习，至少理论意义会更大。共享隐层的基础会更扎实些，因为用音韵结构定义的语音感知单元就是按照人类发音器官跨语言共享的总体特性来决定的。
　　
　　从更广阔的意义上讲，迁移学习可以成为完成非监督学习的重要“知识源”之一，特别当数据和问题本身有组合特性的时候。上月开完的CVPR有一篇很好的关于“DeepCompositionNet”的论文，用到的迁移学习很巧妙很有趣。语音领域里的这种组合特性更丰富，特别在于怎样将音素（类比为分子）分解为phonologicalfeatures（类比为原子）。而且这种分解组合与“features”之间非同步的时程演化有关。这是语音很有趣的特性。
　　
　　记者：当前热门的LSTMRNN被高估了吗？
　　
　　邓力：热门而古老的LSTMRNN确实很有效。GRU简化了LSTM不少，也类似有效。但要注意，把它们用到语音识别时必须用HMM的动态规划或者CTC来处理LSTMRNN的输出。手写体字的识别也一样。但用到自然语言处理就不需要这样多此一举，因为输入输出的序列没有像语音和手写体识别那样的segmental特性。
　　
　　LSTMRNN的之一Schmidhuber教授近日正好来到西雅图。我们又一次在一起讨论，也谈起LSTMRNN在语音识别和其他领域（包括增强学习方面）的重要应用。我不觉得有被高估。
　　
　　记者：书中介绍了一系列的未来技术方向，其中哪些是您的团队所关注的？您如何确定一个技术研究的方向？
　　
　　邓力：英文版的书是在2014年中完稿的。近两年来深度学习发展很快。15章后一节提到的一系列的未来技术方向，不少方面至今已经有很大的进展。书完稿之后又很快出现新的技术研究的方向。
　　
　　我领导的团队现在主要聚焦在自然语言语义理解及其在对话系统（包括聊天机器人）上的应用。语音的进一步进展目前相对是次要，因为识别率已经高到在对话系统上可以使用的地步了。
　　
　　确定技术研究的方向有几个因素要结合，包括其潜在的对工业界和学术界的影响力,实际应用的可能性和广泛性，创新价值和新颖性，能否利用现有技术积累比较快速地实现，等等。当然也包括团队有无激情和能力把它做成。所以团队的质量重要。我领导的团队近年来靠公司内部富有激情和高度能力的强手队员做了几项很有影响力的深度学习大项目，但因涉及商业应用尚未对外发表，这在一定程度上对吸引公司外部的强手起了负面作用。我们正在设法改变这种状况，使我们的团队更加强壮。
　　
　　记者：训练关键的发音特征并泛化，目前有什么样的进展？您认为技术成熟还需要什么条件？
　　
　　邓力：刚才提到我们目前的精力主要在自然语言理解，我近来没有跟踪这方面的进展。但我认为有效利用语音composition特性来做基于迁移学习的泛化是一个方向，因为发音特征的变化往往是源于个别发音器工作的微小变化，并非某个音素整体的变化。
　　
　　记者：未来三五年的ASR领域，是否还有一些非深度学习方法具有挖掘的潜力（或者可以和深度学习进行结合实现更好的效果）？
　　
　　邓力：像英文和普通话中文已有比较大量的有标注的训练数据，深度神经网络应为主干以达到识别效果。整合深度生成模型有助于进一步提高识别效果。
　　
　　对于低资源的语言或中文的很多方言，有标注的训练数据不多。基于贝叶斯网络的生成模型可能更有效。同时，Kernel非线性方法（非深度模型）也就不受大数据scalability的限制。
　　
　　在所有以上情形里，在非监督深度学习成功之后，它们的识别效果都会有很大的提升，因为更多无标注的语音数据可以被有效地加以应用。
　　
　　增强学习的作用
　　
　　记者：AlphaGo的进展让世界注意到了增强学习，您认为（深度）增强学习在语音识别领域能发挥什么样的作用？
　　
　　邓力：增强学习的本质是阶段性的优化过程，同时增强信号或有“标注”的信号只是到终点阶段才清楚（好比AlphaGo下的围棋后谁赢谁输），或者对在每阶段都有的增强信号不值得过于介意（不像有监督学习的标注那样介意到把它直接当作目标去优化逼近）因为这种增强信号只起局部性的参考估值（evaluative）作用。这些例子是我们团队正在做的不同类型的聊天和对话机器人的场景。
　　
　　对语音识别，每个句子标注的信号价值都很高，而且我们真把它当作目标去优化逼近来训练系统参数。所以这是一个典型的有监督学习问题（或者在不久将来会成为非监督学习问题），并不是增强学习问题。但如果把语音识别作为整个语音对话系统的一部分，而且用端到端深度增强学习方法来优化整个系统，那么语音识别器的参数会跟有监督学习得到的结果略有不同，因为语音识别器的参数会受端到端深度增强学习影响，尽管增强学习主要是用到整个语音对话系统系统优化的后端。
　　
　　所以，初看起来好像以序列结构为输出的语音识别和增强学习都用到动态规划来做训练和测试，但它们的目的是很不一样的。
　　
　　非监督学习语音识别的关键
　　
　　记者：您多次表示看好语音的非监督学习，并且书中还谈到了词嵌入，未来词嵌入的引入会是语音领域非监督学习的大杀器吗？
　　
　　邓力：两年前我们在写这本书后一章后一节时，我们将词嵌入的利用和改善作为一个未来方向。之后我对这个问题有更多的思考。下面利用这个采访机会小结一下。
　　
　　非监督深度学习的本质是在无标注数据的条件下要能够有效地将各类相关的“先验”知识整合到一个完整而能快速计算和优化的深度学习框架。我的这个观念同其他说非监督深度学习的专家很不同。可能他们还没想得那么清楚和深入。我常对新加入我团队和做机器学习理论的同事说，我的这个观念可以又称为“有无限实际价值的非监督深度学习”，而不是大家在机器学习书本、wikipedia和文献上看到的几乎是没多少实际价值的非监督学习。
　　
　　说到先验知识，我们就看到贝叶斯方法很重要，不能单用神经网络。一定要做到有原则性的整合。
　　
　　词嵌入的本质是利用了词在句子中分配特性,也就是邻近词的预测特性（近见到一些深度学习专家谈到用类似的预测特性做有关视频的非监督深度学习）。但这只是所应该用的先验知识的一小部分。更重要的先验知识应该是关于输出序列变量的强统计特性，也就是如何把大型且高质量的语言模型用到全系统学习，并且同时有效地用上极大量无标注的语音数据。
　　
　　说到词嵌入或音素嵌入用到语音识别领域，我觉得更有意思的是把乔姆斯基的生成式音韵结构整合到深度学习讲的嵌入方法里。我在MIT时（1992-1993）同我的学生孙晓东把乔姆斯基的生成式音韵结构用到GMM-HMM的输出层上得到很有意思的结果，1994年在JASA发表了很长的论文。记得当年Hinton教授从多伦多到MIT访问我时，讨论到是否能把这种生成式音韵结构知识用到神经网络架构上。当时没继续进展，也许现在可以在这方面开展一些工作。
　　
　　同样重要的是关于语音生成的先验知识加上从其他任务中学来的知识。对抗式网络的思路是可以用来整合语音生成知识到动态深度神经网络的方法之一。这里有很多好的研究可以做。
　　
　　当然关于输入变量的统计特性对非监督深度学习也很重要，比如在传统意义上讲的非监督学习的自动分类。我同伯克利大学的BinYu教授有很多这方面的讨论。但对语音领域这后者不是那么容易用得好，因为语音有很特殊的动态特性。
　　
　　很多这些想法都还没写到我们的书里。在第2、3、6和15章里，只是略提了一些。
　　
　　类脑机器智能突破现有神经网络的局限
　　
　　记者：您关注的类脑机器智能是否局限于神经网络？如果不是，能否介绍您在这方面的新研究及其在语音方面的应用？
　　
　　邓力：类脑机器智能同神经网络关系大。直接有关的是如何利用神经脉冲特性，包括用STDP来改善现有的神经网络和算法。早在2013年温哥华的ICASSP大会期间，Hinton教授是我请来做主题演讲的，我们当时开会期间就谈了很多关于STDP的问题,包括STDP同BackProp的紧密关系以及可能的BackProp改善使它更相符人脑的运行机制。还有很多相似的类脑机制很可能将来会对现有的深度神经网络算法和机器智能产生显著的影响。
　　
　　至于神经网络以外的，这要看你怎样定义神经网络——深层生成式模型可以属于神经网络，也可以属于非神经网络的图模型或贝叶斯网络。后者着重于将应用领域的知识（比如语音识别中的从发音器官的控制到发音器官的运动再到声音的产生的一系列因果关系）用疏散的矩阵把随机变量“节点”连接起来。并着重于用统计分布来描述非确定性，因为现实应用领域的知识很少是确定无暇的。这类深层生成式模型比较难用类脑的机制和算法来改善。如果能用GPU加速运算就不错了。事实上就连这也没那么简单。
　　
　　对可以当成神经网络看待的深层生成式模型，类脑机器智能的潜力很大。这种模型撇开应用领域的知识而用统一的密集矩阵来参数化整个模型。不但用GPU加速运算就像DNN一样容易，不少类脑机制和认知科学理论也可以比较直接用上。
　　
　　说到认知科学理论用于类脑机器智能，我领导的团队正在同美国一所大学的教授合作开发一个新型的基于高维张量的结构表征和知识库。这个项目由我亲手抓，它直接受启发于人脑对纯符号树状或图状结构的表征。这对于自然语言和知识的组织利用和增长都非常关键。
　　
　　长远看来，类脑机器智能一定会突破现有的深度神经网络存在的许多局限。我的团队在以上方面的工作目前大部分用在自然语言语义理解、对话系统和知识整合诸方面的利用。语音识别方面的问题相对简单一点。

(来源：数据分析网原标题：微软邓力：语音识别与非监督深度学习、增强学习、词嵌入、类脑智能)

上一页 [1] [2]

上一篇：王帆讲工匠精神：我们不是一个PPT上的企业

下一篇：陆奇：云计算和人工智能给微软带来怎样的新机会？

版权与免责声明

凡本网注明"来源：智能制造网"的所有作品，版权均属于智能制造网，转载请必须注明智能制造网，https://www.royalintltours.com。违反者本网将追究相关法律责任。
本网转载并注明自其它来源的作品，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品来源，并自负版权等法律责任。
如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。

热点排行

今日推荐周排行月排行