邓力:以独特视角诠释语音识别领域新技术进展
邓力:我们在第12章讲了迁移学习,并举了用其他语言的语料帮助一个特定语言的语音识别的例子。跨语言能共享DNN隐层架构有很强的物理和认知的基础。不论什么语言,其发音器官(主要包括声道和声门)大体相似。人类语音感知机制是同生成机制紧密相连的。所以DNN作为语音感知层的模型在高层上共享隐层是很自然的思想。
12章讲的所有例子都是基于音素及其左右context作为基本语音单元。我觉得如果能把乔姆斯基的生成式音韵结构用上来定义基本语音单元做迁移学习,至少理论意义会更大。共享隐层的基础会更扎实些,因为用音韵结构定义的语音感知单元就是按照人类发音器官跨语言共享的总体特性来决定的。
从更广阔的意义上讲,迁移学习可以成为完成非监督学习的重要“知识源”之一,特别当数据和问题本身有组合特性的时候。上月开完的CVPR有一篇很好的关于“DeepCompositionNet”的论文,用到的迁移学习很巧妙很有趣。语音领域里的这种组合特性更丰富,特别在于怎样将音素(类比为分子)分解为phonologicalfeatures(类比为原子)。而且这种分解组合与“features”之间非同步的时程演化有关。这是语音很有趣的特性。
记者:当前热门的LSTMRNN被高估了吗?
邓力:热门而古老的LSTMRNN确实很有效。GRU简化了LSTM不少,也类似有效。但要注意,把它们用到语音识别时必须用HMM的动态规划或者CTC来处理LSTMRNN的输出。手写体字的识别也一样。但用到自然语言处理就不需要这样多此一举,因为输入输出的序列没有像语音和手写体识别那样的segmental特性。
LSTMRNN的之一Schmidhuber教授近日正好来到西雅图。我们又一次在一起讨论,也谈起LSTMRNN在语音识别和其他领域(包括增强学习方面)的重要应用。我不觉得有被高估。
记者:书中介绍了一系列的未来技术方向,其中哪些是您的团队所关注的?您如何确定一个技术研究的方向?
邓力:英文版的书是在2014年中完稿的。近两年来深度学习发展很快。15章后一节提到的一系列的未来技术方向,不少方面至今已经有很大的进展。书完稿之后又很快出现新的技术研究的方向。
我领导的团队现在主要聚焦在自然语言语义理解及其在对话系统(包括聊天机器人)上的应用。语音的进一步进展目前相对是次要,因为识别率已经高到在对话系统上可以使用的地步了。
确定技术研究的方向有几个因素要结合,包括其潜在的对工业界和学术界的影响力,实际应用的可能性和广泛性,创新价值和新颖性,能否利用现有技术积累比较快速地实现,等等。当然也包括团队有无激情和能力把它做成。所以团队的质量重要。我领导的团队近年来靠公司内部富有激情和高度能力的强手队员做了几项很有影响力的深度学习大项目,但因涉及商业应用尚未对外发表,这在一定程度上对吸引公司外部的强手起了负面作用。我们正在设法改变这种状况,使我们的团队更加强壮。
记者:训练关键的发音特征并泛化,目前有什么样的进展?您认为技术成熟还需要什么条件?
邓力:刚才提到我们目前的精力主要在自然语言理解,我近来没有跟踪这方面的进展。但我认为有效利用语音composition特性来做基于迁移学习的泛化是一个方向,因为发音特征的变化往往是源于个别发音器工作的微小变化,并非某个音素整体的变化。
记者:未来三五年的ASR领域,是否还有一些非深度学习方法具有挖掘的潜力(或者可以和深度学习进行结合实现更好的效果)?
邓力:像英文和普通话中文已有比较大量的有标注的训练数据,深度神经网络应为主干以达到识别效果。整合深度生成模型有助于进一步提高识别效果。
对于低资源的语言或中文的很多方言,有标注的训练数据不多。基于贝叶斯网络的生成模型可能更有效。同时,Kernel非线性方法(非深度模型)也就不受大数据scalability的限制。
在所有以上情形里,在非监督深度学习成功之后,它们的识别效果都会有很大的提升,因为更多无标注的语音数据可以被有效地加以应用。
增强学习的作用
记者:AlphaGo的进展让世界注意到了增强学习,您认为(深度)增强学习在语音识别领域能发挥什么样的作用?
邓力:增强学习的本质是阶段性的优化过程,同时增强信号或有“标注”的信号只是到终点阶段才清楚(好比AlphaGo下的围棋后谁赢谁输),或者对在每阶段都有的增强信号不值得过于介意(不像有监督学习的标注那样介意到把它直接当作目标去优化逼近)因为这种增强信号只起局部性的参考估值(evaluative)作用。这些例子是我们团队正在做的不同类型的聊天和对话机器人的场景。
对语音识别,每个句子标注的信号价值都很高,而且我们真把它当作目标去优化逼近来训练系统参数。所以这是一个典型的有监督学习问题(或者在不久将来会成为非监督学习问题),并不是增强学习问题。但如果把语音识别作为整个语音对话系统的一部分,而且用端到端深度增强学习方法来优化整个系统,那么语音识别器的参数会跟有监督学习得到的结果略有不同,因为语音识别器的参数会受端到端深度增强学习影响,尽管增强学习主要是用到整个语音对话系统系统优化的后端。
所以,初看起来好像以序列结构为输出的语音识别和增强学习都用到动态规划来做训练和测试,但它们的目的是很不一样的。
非监督学习语音识别的关键
记者:您多次表示看好语音的非监督学习,并且书中还谈到了词嵌入,未来词嵌入的引入会是语音领域非监督学习的大杀器吗?
邓力:两年前我们在写这本书后一章后一节时,我们将词嵌入的利用和改善作为一个未来方向。之后我对这个问题有更多的思考。下面利用这个采访机会小结一下。
非监督深度学习的本质是在无标注数据的条件下要能够有效地将各类相关的“先验”知识整合到一个完整而能快速计算和优化的深度学习框架。我的这个观念同其他说非监督深度学习的专家很不同。可能他们还没想得那么清楚和深入。我常对新加入我团队和做机器学习理论的同事说,我的这个观念可以又称为“有无限实际价值的非监督深度学习”,而不是大家在机器学习书本、wikipedia和文献上看到的几乎是没多少实际价值的非监督学习。
说到先验知识,我们就看到贝叶斯方法很重要,不能单用神经网络。一定要做到有原则性的整合。
词嵌入的本质是利用了词在句子中分配特性,也就是邻近词的预测特性(近见到一些深度学习专家谈到用类似的预测特性做有关视频的非监督深度学习)。但这只是所应该用的先验知识的一小部分。更重要的先验知识应该是关于输出序列变量的强统计特性,也就是如何把大型且高质量的语言模型用到全系统学习,并且同时有效地用上极大量无标注的语音数据。
说到词嵌入或音素嵌入用到语音识别领域,我觉得更有意思的是把乔姆斯基的生成式音韵结构整合到深度学习讲的嵌入方法里。我在MIT时(1992-1993)同我的学生孙晓东把乔姆斯基的生成式音韵结构用到GMM-HMM的输出层上得到很有意思的结果,1994年在JASA发表了很长的论文。记得当年Hinton教授从多伦多到MIT访问我时,讨论到是否能把这种生成式音韵结构知识用到神经网络架构上。当时没继续进展,也许现在可以在这方面开展一些工作。
同样重要的是关于语音生成的先验知识加上从其他任务中学来的知识。对抗式网络的思路是可以用来整合语音生成知识到动态深度神经网络的方法之一。这里有很多好的研究可以做。
当然关于输入变量的统计特性对非监督深度学习也很重要,比如在传统意义上讲的非监督学习的自动分类。我同伯克利大学的BinYu教授有很多这方面的讨论。但对语音领域这后者不是那么容易用得好,因为语音有很特殊的动态特性。
很多这些想法都还没写到我们的书里。在第2、3、6和15章里,只是略提了一些。
类脑机器智能突破现有神经网络的局限
记者:您关注的类脑机器智能是否局限于神经网络?如果不是,能否介绍您在这方面的新研究及其在语音方面的应用?
邓力:类脑机器智能同神经网络关系大。直接有关的是如何利用神经脉冲特性,包括用STDP来改善现有的神经网络和算法。早在2013年温哥华的ICASSP大会期间,Hinton教授是我请来做主题演讲的,我们当时开会期间就谈了很多关于STDP的问题,包括STDP同BackProp的紧密关系以及可能的BackProp改善使它更相符人脑的运行机制。还有很多相似的类脑机制很可能将来会对现有的深度神经网络算法和机器智能产生显著的影响。
至于神经网络以外的,这要看你怎样定义神经网络——深层生成式模型可以属于神经网络,也可以属于非神经网络的图模型或贝叶斯网络。后者着重于将应用领域的知识(比如语音识别中的从发音器官的控制到发音器官的运动再到声音的产生的一系列因果关系)用疏散的矩阵把随机变量“节点”连接起来。并着重于用统计分布来描述非确定性,因为现实应用领域的知识很少是确定无暇的。这类深层生成式模型比较难用类脑的机制和算法来改善。如果能用GPU加速运算就不错了。事实上就连这也没那么简单。
对可以当成神经网络看待的深层生成式模型,类脑机器智能的潜力很大。这种模型撇开应用领域的知识而用统一的密集矩阵来参数化整个模型。不但用GPU加速运算就像DNN一样容易,不少类脑机制和认知科学理论也可以比较直接用上。
说到认知科学理论用于类脑机器智能,我领导的团队正在同美国一所大学的教授合作开发一个新型的基于高维张量的结构表征和知识库。这个项目由我亲手抓,它直接受启发于人脑对纯符号树状或图状结构的表征。这对于自然语言和知识的组织利用和增长都非常关键。
长远看来,类脑机器智能一定会突破现有的深度神经网络存在的许多局限。我的团队在以上方面的工作目前大部分用在自然语言语义理解、对话系统和知识整合诸方面的利用。语音识别方面的问题相对简单一点。
- 凡本网注明"来源:智能制造网"的所有作品,版权均属于智能制造网,转载请必须注明智能制造网,https://www.royalintltours.com。违反者本网将追究相关法律责任。
- 本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
- 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
- 01再传捷报丨恒力重工与欧洲主流船东签订
本月初,恒力重工为德国船东Vogemann建造的卡萨姆型散货船和[详细]
- 022025年度国家绿色数据中心名单公示
现将2025年度国家绿色数据中心名单予以公示,公示时间为2025[详细]
- 03英伟达10亿美元入股诺基亚 达成战略技
英伟达CEO黄仁勋在华盛顿举行的GTCDC大会上宣布,将对诺基亚[详细]
- 04大型水陆两栖飞机AG600首次野外环境汲水投水演练成功
AG600是我国为满足森林灭火和水上救援等迫切需求而自研的大[详细]
- 05浙东工业母机国家先进制造业集群产业链对接专场在平湖举行
本次活动旨在贯彻落实党中央、国务院关于加快发展先进制造业[详细]
- 06斥资21个亿!震裕科技加码机器人零部件制造
机器人市场加速扩容,正持续带动其核心零部件赛道需求飙升。[详细]
- 07深耕半导体检测领域 日联科技重磅并购
日联科技全资子公司RAYTECHSINGAPOREPTE.LTD(中文名:瑞泰([详细]
- 08中兴通讯前三季度营收破千亿,AI算力业
数据显示,中兴通讯前三季度算力业务表现尤为突出,营收同比[详细]
- 01防止与固态电池混淆!半固态电池要改名了
相关主管部门正在酝酿出台一个新文件,将“半固态电池”统一[详细]
- 02上市公司跨界布局,国产装备首出海!深
2025年,深海机器人赛道热度持续攀升,成为资本市场与产业政[详细]
- 03从几十万降至万元,无人配送车打响圈地
国家邮政局数据显示,截至2024年年底,快递物流无人配送车规[详细]
- 04机器人IPO狂飙:近30家企业竞速,繁荣
这股热潮并非资本盲目跟风,而是政策红利、技术突破、资本周[详细]
- 05加速进化发布Booster K1,首批20分钟售
BoosterK1整机重量20kg,配备了专用行李箱,支持“开箱即用[详细]
- 06潮水褪去,看潮内的跨界光伏者们
当跨界者怀揣资本与梦想涌入光伏行业时,他们或许未曾料到,[详细]
- 07年产950万方!广东云浮出让储量超2.7亿方大矿
该矿资源储量共约2.78亿方(含建筑用花岗岩、砂质高岭土、建[详细]
- 08《钢铁行业产能置换实施办法(征求意见
工业和信息化部对《钢铁行业产能置换实施办法》(工信部原〔2[详细]
- 01禄劝县第二个区域性农机服务中心挂牌成立
活动中,相关负责同志指出,区域性农机服务中心的建立是落实[详细]
- 02【政策】海关总署发布《关于规范进口再
海关总署国家发展和改革委员会工业和信息化部生态环境部商务[详细]
- 03美国电动汽车充电桩增建速度创新高
美国能源部的数据显示,今年第三季度,美国新增约780座公共[详细]
- 04德国计划推出30亿欧元电动汽车激励措施
据悉,在10月9日举行的汽车行业峰会落幕后,德国执政联盟预[详细]
- 05极飞荣膺联合国粮农组织可持续植物生产
全球约80%的食物来源于植物,但每年有高达40%的农作物产量因[详细]
- 06泗洪开展玉米、大豆机收损失率监测调查 评估机械收获质量
技术人员分组行动,选取不同地块、不同品种品种的玉米,大豆[详细]
- 07多作物智能化联合收获技术研讨交流会在齐齐哈尔市召开
机具作业演示环节在铁锋区齐齐哈尔农场开展,现场集中展示演[详细]
- 08伟创电气拟出资1000万元认购恒和聚创5.
伟创电气表示,本次交易为借助专业投资机构的经验和资源,拓[详细]




官方微信