邓力:以独特视角诠释语音识别领域新技术进展

着眼于端到端建模和训练,邓力介绍了输出端和输入端的进展,迁移学习、增强学习、非监督学习在语音识别领域的应用现状和前景,并解释了他对非监督学习的独特理解,重点总结了词嵌入的利用和改善。他还展望了类脑机器智能突破现有的深度神经网络局限的方法。
有感于有监督学习的局限,邓力目前将很大部分的精力用到了非监督学习上,并且与微软目前的自然语言理解、对话系统、聊天机器人等核心工作相结合。看好非监督学习语音识别,是由于语音识别领域“先验”知识的逐渐成熟,包括输出端非常强的语言模型和多年积累的从输出端到输入端映射的生成式知识。邓力认为,将各种先验知识整合到一个完整而能快速计算和优化的非监督深度学习框架,语音识别的问题将可以彻底解决。当然,这需要新的深度非监督学习算法和理论。
邓力认为,词嵌入或音素嵌入用到语音识别领域,一项有意思的工作是把乔姆斯基的生成式音韵结构整合到深度学习讲的嵌入方法里。对抗式网络的思路可以用来整合语音生成知识。不过,词嵌入的本质是利用邻近词的预测特性,只是所应该用的先验知识的一小部分。更重要的先验知识应该是关于输出序列变量的更强并比现有词嵌入具有更长距离的统计特性,以及从输出到输入的生成特性。
以下为采访实录:
非监督学习语音识别将来会成功,但需要大量创新工作来铺路
记者:能否介绍当前语音识别领域让您兴奋的一些进展,以及您目前所做的一些有趣的工作?
邓力:从整个语音识别业界来讲(包括中国和美国几家主要大公司的工作),令人兴奋的进展涵盖了输出端和输入端的端到端训练::
端到端建模和训练大规模神经网络语音识别系统近期继续降低识别错误率,特别是成功用上CTC训练准则使得端到端训练行之有效。CTC训练准则忠实地代表了语音识别系统的训练目标,比我们在DNN时代之前用的MCE、MPE、MWE、MMI更合理,尽管CTC的优化需要不少工程技巧。我在研究院的同事在这方面做了很多工作,包括对CTC的延伸并将CTC与传统的MMI序列训练方法相结合。
行之有效的端到端训练在输入端已经扩张到多麦克风阵列的语音波形。这使得抗噪音的语音识别系统部分也整合进入端到端学习。
我自己目前将不少时间用在关于让非监督学习用到离散序列输出(比如自然语言)的应用,包括语音识别、机器翻译、看图说话,等等。为什么注重像自然语言这样的离散序列输出?这是因为自然语言模型包含了非常丰富的“先验”知识,使得不需输入输出匹配的学习的成功机会大于其他在输出端缺乏丰富“先验”知识的应用和任务。
靠输入输出匹配的学习是要花高代价准备大训练数据的。这是目前很成功的有监督深度学习的局限之一。相反,无需输入输出匹配的大数据成本要低得多,它遍地皆是,有取之不尽用之不竭的潜力。
要有效地利用比现有输入输出相匹配的训练数据高出几个数量级的无输入输出匹配的大数据来训练深度学习系统,有待于开创全新的深度非监督学习算法和理论。一旦成功,这会给深度学习建立一个新的里程碑。比如用在语音识别,任何人们之间的对话和个人演讲都可以成为非监督学习语音识别机的语料,而我们并不需要去标注这些自然的到处都有的语料。
为什么我认为非监督学习语音识别会成功?因为我们在输出端有丰富的“先验”知识,就是非常强的语言模型,可以是嵌入式的,也可以是非嵌入式的。同时我们也有非常丰富的从输出端到输入端映射的生成式的“先验”知识。这就是语音科学家几十年积累下来的人类从概念到波形的语音motorcontrol和语音生成的知识。语音生成的motorcontrol要比机械人对手指的精细运动控制还复杂。
我当年在MIT、ATR和在加拿大滑铁卢大学任教时做了很多这方面的研究。当时用的是动态深度贝叶斯网络来表达和实现这些知识,模型中的一部分也用上multilayerperception。我和我的学生们在1997-2003年发表了一系列论文。到微软之后还写了两本关于这方面的书。记得当年GeoffHinton教授同我就如何将这些动态语音生成知识和模型用到有监督深度学习讨论了很长时间。当时得到的识别率结果跟丢开这些生成知识的DNN-HMM差不多,但计算上却难以得益于用GPU训练,而且解码要用很多近似,也很慢。所以我把动态语音生成模型放弃了很长时间专攻DNN,后者没有这些弱点。见文末一些文献,回顾了以上讲的这些古老的工作。
现在到了大家开始注重非监督深度学习的时代。过去积累的研究经验和有计算价值的语音生成知识真是可以派上用场。将多种类(输入输出端统计特性以及它们的关联性)的先验知识整合到一个崭新的非监督深度学习框架,我相信语音识别的问题可以彻底解决。
深度神经网络应为主干
记者:概括地说,除了特征提取,深度学习在语音识别领域主要还发挥哪些作用?
邓力:端到端训练高层动态网络是有监督深度学习在语音识别领域应用的精华。特征提取只是它的自然结果之一。
直到现在,单靠特征提取在非监督深度学习上从未成功过。
记者:您与俞栋博士合著的新书《解析深度学习-语音识别实践》系统地介绍了基于DNN的语音识别技术,哪些人应该读这本书?他们会收获些什么?这本书适合入门吗?需要读者具备什么知识基础?
邓力:我们在序言里讲到这本书的对象主要是语音处理及机器学习领域的在读研究生、研究者、实践者、工程师以及科学家的学习研究工作。但注意由于我们写书时间紧迫,有些内容没有加上,包括CNN、CTC、麦克风阵列、语音分离,等等。
阅读本书的知识基础包括微积分、矩阵代数和基本的概率统计等。
对于入门读者,我们同年出版的英文版《深度学习:方法和应用》(由谢磊教授翻译成中文)可能更适合。只是材料有点过时了。
记者:您介绍了很多鲁棒性的方法,有哪一种是您喜欢的吗?
邓力:对speaker鲁棒性的方法,我很喜欢KL-divergenceregularization,不但管用,而且方法巧妙,实现起来也简单。是subspace方法中的一种。
对抗环境噪音的鲁棒性的方法,我在全力攻DNN之前很喜欢VTS的方法,也发明了整合语音-噪音相位的VTS方法,不但方法巧妙,在某些条件下也挺管用。但因为它用的是生成式的概念,几年前很难用DNN方法来实现。现在我们知道怎样整合生成式模型和神经网络(见书中第6章和文末一些文献),大家做这方面的研究可能就有成功希望了。
记者:书中专门谈到了迁移学习,举了一些例子,如欧洲语言到中文普通话的成功迁移,那么哪些因素决定共享DNN隐层架构在当前语音识别领域的边界和局限?迁移学习在语音识别领域推广应用的挑战是什么?
- 凡本网注明"来源:智能制造网"的所有作品,版权均属于智能制造网,转载请必须注明智能制造网,https://www.royalintltours.com。违反者本网将追究相关法律责任。
- 本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
- 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
- 01再传捷报丨恒力重工与欧洲主流船东签订
本月初,恒力重工为德国船东Vogemann建造的卡萨姆型散货船和[详细]
- 02ABB发布制浆工厂优化软件,赋能更具韧性的纸浆生产
ABB推出ABBAbility™制浆工厂优化软件,这款全新的动态软件[详细]
- 03又一汽车零部件企业新项目落地上海嘉定
该项目选址安亭镇环同济片区02-01地块,位于嘉定氢能港区域[详细]
- 04顺丰超脑2.0获2025年CCF科技成果奖,物
作为兼具权威性与影响力的科研奖项,CCF科技成果奖是中国计[详细]
- 05斯坦德机器人×FUJI强强联合
此次合作,斯坦德机器人作为“FUJISmartFactorymembers”(由[详细]
- 06沃得农机再传捷报!实力圈粉2025中国国
本次展会中,沃得农机在A4馆23展位打造了多元化产品展示矩阵[详细]
- 07华测检测2025年前三季度营收47.02亿元
2025年前三季度,公司毛利率为49.83%,同比下降1.05个百分点[详细]
- 082025中国服装大会定于11月23—25日在江西于都召开
本次会议以“接续创新,高质发展”为主题,旨在汇聚行业领军[详细]
- 01防止与固态电池混淆!半固态电池要改名了
相关主管部门正在酝酿出台一个新文件,将“半固态电池”统一[详细]
- 02从几十万降至万元,无人配送车打响圈地
国家邮政局数据显示,截至2024年年底,快递物流无人配送车规[详细]
- 03上市公司跨界布局,国产装备首出海!深
2025年,深海机器人赛道热度持续攀升,成为资本市场与产业政[详细]
- 04智元「灵创」平台来了!人人都是机器人训练大师
无需编程基础、无需专业设备,只需上传一段人类动作视频,用[详细]
- 05《钢铁行业产能置换实施办法(征求意见
工业和信息化部对《钢铁行业产能置换实施办法》(工信部原〔2[详细]
- 06加速进化发布Booster K1,首批20分钟售
BoosterK1整机重量20kg,配备了专用行李箱,支持“开箱即用[详细]
- 07电动无人驾驶重塑矿山运输!宁德时代与
易控智驾与宁德时代的此次携手,标志着电动无人矿山建设已从[详细]
- 08年产950万方!广东云浮出让储量超2.7亿方大矿
该矿资源储量共约2.78亿方(含建筑用花岗岩、砂质高岭土、建[详细]
- 01禄劝县第二个区域性农机服务中心挂牌成立
活动中,相关负责同志指出,区域性农机服务中心的建立是落实[详细]
- 02极飞荣膺联合国粮农组织可持续植物生产
全球约80%的食物来源于植物,但每年有高达40%的农作物产量因[详细]
- 03泗洪开展玉米、大豆机收损失率监测调查 评估机械收获质量
技术人员分组行动,选取不同地块、不同品种品种的玉米,大豆[详细]
- 04多作物智能化联合收获技术研讨交流会在齐齐哈尔市召开
机具作业演示环节在铁锋区齐齐哈尔农场开展,现场集中展示演[详细]
- 05伟创电气拟出资1000万元认购恒和聚创5.
伟创电气表示,本次交易为借助专业投资机构的经验和资源,拓[详细]
- 06皮尔磁:直达现场级的安全通信
该主站采用模块化设计,能够灵活适配多种应用场景。PDP67提[详细]
- 07柯力传感控股股东一致行动人拟合计减持
本次减持将在公告披露之日起15个交易日后的3个月内进行,减[详细]
- 08宇树科技发布Unitree H2新一代仿生人形
官方还未公布具体配置,但从视频演示来看,新品比前一代更加[详细]




官方微信