张志华：机器学习＝统计与计算之恋

发布时间：2016年06月27日 13:40来源：智能制造网编辑：人气：32426

　
　　现在计算机界戏称机器学习“学科”，它无所不在。一方面，机器学习有其自身的学科体系；另一方面它还有两个重要的辐射功能。一是为应用学科提供解决问题的方法与途径。说的通俗一点，对于一个应用学科来说，机器学习的目的就是把一些难懂的数学翻译成让工程师能够写出程序的伪代码。二是为一些传统学科，比如统计、理论计算机科学、运筹优化等找到新的研究问题。
　　
　　4、机器学习发展的启示
　　
　　机器学习的发展历程告诉我们：发展一个学科需要一个务实的态度。时髦的概念和名字无疑对学科的普及有一定的推动作用，但学科的根本还是所研究的问题、方法、技术和支撑的基础等，以及为社会产生的价值。
　　
　　机器学习是个很酷的名字，简单地按照字面理解，它的目的是让机器能像人一样具有学习能力。但在前面我们所看到的，在其10年的黄金发展期，机器学习界并没有过多地炒作“智能”，而是更多地关注于引入统计学等来建立学科的理论基础，面向数据分析与处理，以无监督学习和有监督学习为两大主要的研究问题，提出和开发了一系列模型、方法和计算算法等，切实地解决工业界所面临的一些实际问题。近几年，因应大数据的驱动和计算能力的极大提升，一批面向机器学习的底层架构又先后被开发出来，深度神经网络的强势崛起给工业界带来了深刻的变革和机遇。
　　
　　机器学习的发展同样诠释了多学科交叉的重要性和必要性。然而这种交叉不是简单地彼此知道几个名词或概念就可以的，是需要真正的融化贯通。MikeJordan教授既是的计算机学家，又是的统计学家，所以他能够承担起建立统计机器学习的重任。而且他非常务实，从不提那些空洞无物的概念和框架。他遵循自下而上的方式，即先从具体问题、模型、方法、算法等着手，然后一步一步系统化。GeoffreyHinton教授是世界的认知心理学家和计算机科学学家。虽然他很早就成就斐然，在学术界名声，但他一直活跃在一线，自己写代码。他提出的许多想法简单、可行又非常有效，因此被称为伟大的思想家。正是由于他的睿智和力行，深度学习技术迎来了革命性的突破。
　　
　　机器学习这个学科同时是兼容并收。我们可以说机器学习是由学术界、工业界、创业界(或竞赛界)等合力而造就的。学术界是引擎，工业界是驱动，创业界是活力和未来。学术界和工业界应该有各自的职责和分工。学术界职责在于建立和发展机器学习学科，培养机器学习领域的专门人才；而大项目、大工程更应该由市场来驱动，由工业界来实施和完成。
　　
　　5、国内外发展现状
　　
　　我们来看看机器学习在国际的发展现状。我主要看几所大学的情况。在伯克利，一个值得深思的举措是机器学习的教授同时在计算机系和统计学都有正式职位，而且据我所知，他们不是兼职，在两个系都有教授课程和研究的任务的。伯克利是美国统计学的发源地，可以说是当今统计学的圣地，然而她兼容并蓄、不固步自封。MikeJordan教授是统计机器学习的主要建立者和推动者，他为机器学习领域培养了一大批的学生。统计系的主任现在是Mike，然而他早年的教育并没有统计或数学背景。可以说，Berkeley的统计系成就了Mike，反过来他也为Berkeley的统计学发展创造了新的活力，建立了无可代替的功勋。
　　
　　斯坦福和伯克利的统计是公认世界好的两个。我们看到，斯坦福统计系的主流方向就是统计学习，比如我们熟知的《Elementsofstatisticallearning》一书就是统计系几位教授撰写的。Stanford计算机科学的人工智能方向一直在世界占主导地位，特别在不确定推理、概率图模型、概率机器人等领域成就斐然，他们的网络公开课《机器学习》、《概率图模型》以及《人工智能》等让世界受益。
　　
　　CMU是一个非常独特的学校，她并不是美国传统的常春藤大学。可以说，它是以计算机科学为立校之本，它是世界个建立机器学习系的学校。TomMitchell教授是机器学习的早期建立者之一和守护者，他一直为该校本科生教《机器学习》课程。然而，这个学校统计学同样强，尤其，她是贝叶斯统计学的世界研究中心。
　　
　　在机器学习领域，多伦多大学有着举足轻重的地位，她们机器学习研究组云集了一批的学者，在“Science”和“Nature”发表多篇论文，实属罕见。GeoffreyHinton教授是伟大的思想家，但更是践行者。他是神经网络的建立者之一，是BP算法和深度学习的主要贡献者。正是由于他的不懈努力，神经网络迎来了大爆发。RadfordNeal教授是Hinton学生，他在贝叶斯统计领域，特别是关于MCMC做出了一系列的重要工作。
　　
　　国际发展现状

国外发展现状

　　
　　那么我们来看看国内的现状。总的来说，统计和计算机科学这两个学科处于Larry所说的初期各自为战的阶段。面向大数据的统计学与计算机科学的交叉研究是机遇也是挑战。
　　
　　我之前在浙江大学曾经参与其统计交叉学科中心的组建，由此对统计界有所了解。统计学在中国应该还是一个弱势学科，近才被国家定为一级学科。我国统计学处于两个极端，一是它被当作数学的一个分支，主要研究概率论、随机过程以及数理统计理论等。二是它被划为经济学的分支，主要研究经济分析中的应用。而机器学习在统计学界还没有被深度地关注。因此，面向于数据处理、分析的IT和统计学的深度融合有巨大的潜力。
　　
　　虽然，我并没有跟国内机器学习或者人工智能学术界有深入的接触，但我在国内计算机系工作近8年时间，一直在一线从事机器学习相关的教学与研究，应该对机器学习的现状有一定的发言权。机器学习的确在中国得到了广泛的关注，也取得了一定的成绩，但我觉得高品质的研究成果稀缺。热衷于对机器学习的阶段进行一些概念炒作，它们通常没有多大的可执行性；偏爱大项目、大集成，这些本更应该由工业界来实施；而理论、方法等基础性的研究不被重视，认为理论没有用处的观点还大有市场。
　　
　　计算机学科的培养体系还基本停留在它的早期发展阶段。大多数学校都开设了人工智能与机器学习的课程，但无论是深度还是前沿性都落后于学科的发展，不能适应时代的需要。人才的培养无论质量和数量都无法满足工业界的需求。这也是国内IT公司与国际同类公司技术上有较大差距的关键原因。
　　
　　第二部分：几个简单的研究思路
　　
　　在这部分，我的关注则回到机器学习的研究本身上来。机器学习内容博大精深，而且新方法、新技术正源源不断地被提出、被发现。这里，我试图用“多级”、“自适应”以及“平均”等概念来简约纷繁多彩的机器学习模型和计算方法背后的一些研究思路和思想。希望这些对大家理解机器学习已有的一些模型、方法以及未来的研究有所启发。
　　
　　1.多级
　　
　　首先，让我们来关注“多级”这个技术思想。我们具体看三个例子。
　　
　　个例子是隐含数据模型，它就是一种多级模型。作为概率图模型的一种延伸，隐含数据模型是一类重要的多元数据分析方法。隐含变量有三个重要的性质。，可以用比较弱的条件独立相关性代替较强的边界独立相关性。的deFinetti表示定理支持这点。这个定理说，一组可以交换的随机变量当且仅当在某个参数给定条件下，它们可以表示成一组条件随机变量的混合体。这给出了一组可以交换的随机变量的一个多级表示。即先从某个分布抽一个参数，然后基于这个参数，独立地从某个分布抽出这组随机变量。第二，可以通过引入隐含变量的技术来方便计算，比如期望大算法以及更广义的数据扩充技术就是基于这一思想。具体地，一些复杂分布，比如t-distribution,Laplacedistribution则可以通过表示成高斯尺度混合体来进行简化计算。第三，隐含变量本身可能具有某种有可解释的物理意思，这刚好符合应用的场景。比如，在隐含狄利克雷分配(LDA)模型，其中隐含变量具有某种主题的意思。
　　
　　第二个例子，我们来看多级贝叶斯模型。在进行MCMC抽样后验估计时，上层的超参数总是需要先人为给定的，自然地，MCMC算法收敛性能是依赖这些给定的超参数的，如果我们对这些参数的选取没有好的经验，那么一个可能做法我们再加一层，层数越多对超参数选取的依赖性会减弱。
　　
　　第三例子，深度学习蕴含的也是多级的思想。如果把所有的节点全部的放平，然后全连接，就是一个全连接图。而CNN深度网络则可以看成对全连接图的一个结构正则化。正则化理论是统计学习的一个非常核心的思想。CNN和RNN是两大深度神经网络模型，分别主要用于图像处理和自然语言处理中。研究表明多级结构具有更强的学习能力。
　　
　　2.自适应
　　
　　我们来看自适应这个技术思路，我们通过几个例子来看这个思路的作用。
　　
　　个例子是自适应重要采样技术。重要采样方法通常可以提高均匀采样的性能，而自适应则进一步改善重要采样的性能。
　　
　　第二个例子，自适应列选择问题。给定一个矩阵A，我们希望从中选取部分列构成一个矩阵C，然后用CC^+A去近似原矩阵A，而且希望近似误差尽可能小。这是一个NP难问题。在实际上，可以通过一个自适应的方式，先采出非常小一部分C_1，由此构造一个残差，通过这个定义一个概率，然后用概率再去采一部分C_2,把C_1和C_2合在一起组成C。
　　
　　第三个例子，是自适应随机迭代算法。考虑一个带正则化的经验风险小问题，当训练数据非常多时，批处理的计算方式非常耗时，所以通常采用一个随机方式。存在的随机梯度或者随机对偶梯度算法可以得到参数的一个无偏估计。而通过引入自适应的技术，可以减少估计的方差。
　　
　　第四个例子，是Boosting分类方法。它自适应调整每个样本的权重，具体地，提高分错样本的权重，而降低分对样本的权重。
　　
　　3.平均　　
　　其实，boosting蕴含着平均思想，即我后要谈的技术思路。简单地说，boosting是把一组弱分类器集成在一起，形成一个强的分类器。好处是可以降低拟合的风险。第二，可以降低陷入局部的风险。第三，可以扩展假设空间。Bagging同样是经典的集成学习算法，它把训练数据分成几组，然后分别在小数据集上训练模型，通过这些模型来组合强分类器。另外这是一个两层的集成学习方式。
　　
　　经典的Anderson加速技术则是通过平均的思想来达到加速收敛过程。具体地，它是一个叠加的过程，这个叠加的过程通过求解一个残差小得到一个加权组合。这个技术的好处，是没有增加太多的计算，往往还可以使数值迭代变得较为稳定。
　　
　　另外一个使用平均的例子是分布式计算中。很多情况下分布式计算不是同步的，是异步的，如果异步的时候怎么办？简单的是各自独立做，到某个时候把所有结果平均，分发给各个worker,然后又各自独立运行，如此下去。这就好像一个热启动的过程。
　　
　　正如我们已经看到，这些思想通常是组合在一起使用的，比如boosting模型。我们多级、自适应和平均的思想很直接，但的确也很有用。
　　
　　在AlphaGo和李世石九段对弈中，一个值得关注的细节是，代表AlphaGo方悬挂的是英国国旗。我们知道AlphaGo是由deepmind团队研发的，deepmind是一家英国公司，但后来被google公司收购了。科学成果是世界人民共同拥有和分享的财富，但科学家则是有其国家情怀和归属感。
　　
　　位低不敢忘春秋大义，我认为我国人工智能发展的根本出路在于教育。先哲说：“磨刀不误砍柴工”。只有培养出一批又一批的数理基础深厚、计算机动手执行力极强，有真正融合交叉能力和国际视野的人才时，我们才会有大作为。
　　
　　致谢
　　
　　上述内容是根据我近在第九届中国R语言会议和上海交通大学的两次讲座而整理出来的，特别是R会主办方统计之都的同学们帮我做了该次演讲的记录。感谢统计之都的太云、凌秉和象宇的邀请，他们和统计之都的伙伴们正在做一件意义影响深远的学术公益，你们的情怀和奉献给了我信心来公开宣讲自己多年来的真实认识和思考。感谢我的学生们帮助我准备这个讲演报告，从主题的选定，内容的选取，材料的收集以及幻灯片的制作他们都给了我极大的支持，更重要的是，他们让我在机器学习领域的求索一直不孤独。谢谢大家！

(来源：统计之都原标题：张志华：机器学习＝统计与计算之恋)

上一页 [1] [2]

上一篇：专访纪宏：大数据形成理论学科尚需时日

下一篇：大数据也能创造错觉我们不应屈服在数据废墟下

版权与免责声明

凡本网注明"来源：智能制造网"的所有作品，版权均属于智能制造网，转载请必须注明智能制造网，https://www.royalintltours.com。违反者本网将追究相关法律责任。
本网转载并注明自其它来源的作品，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品来源，并自负版权等法律责任。
如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。

热点排行

今日推荐周排行月排行