正在阅读:大数据应用:风控业评估风险能力大爆发

大数据应用:风控业评估风险能力大爆发

2016-03-21 16:42:59来源:大数据文摘 关键词:大数据大数据金融云计算阅读量:32738

导读:随着市场的成熟和数据的积累,会有越来越多的数据人才加入风控这个行业,而整个行业基于大数据量化评估风险的能力也会有一个爆发。
  【中国智能制造网  市场分析】随着市场的成熟和数据的积累,会有越来越多的数据人才加入风控这个行业,而整个行业基于大数据量化评估风险的能力也会有一个爆发。
  大数据应用:风控业评估风险能力大爆发

  1.风控的意义
  
  何为风控?字面含义就是对于风险的控制从而使财务不受到损失。对于任何一家金融机构(包括银行,小贷,P2P等)来说,风控的重要性超过流量、体验、品牌这些人们熟悉的指标。风控做得好与坏直接决定了一家公司的生与死,而且其试错成本是无穷大的,往往一旦发现风控出了问题的时候就已经无法挽回了。截止到2015年底,全国总共3000多家P2P平台里超过三分之一已经倒闭。这其中除了一部分明显的自融欺诈外,大多数平台垮掉的原因还是风控不过关。
  
  2.风控的核心
  
  风险控制需要做什么?与逾期率的数值相比,对风险的控制能力要重要得多。借款人需要享受合理的额度和借款成本。出借人需要能够得到合理的风险调整后的收益。达到这样的目标的核心是对每一笔借款违约概率的准确预测。
  
  借款人:基于借款人的风险评估,的借款人能享受更低的借款成本和更高的额度。相对不那么的借款人则需要付出更高但还是合理的成本。劣质的借款人(甚至是欺诈借款人)则会被直接拒绝。
  
  出借人:由于借款人承担的利息成本是基于其风险设置的,我们可以在大数上设定为未逾期的借款人所付出的利息减去逾期借款人带来的本金损失后依旧能够达到合理的收益水平。
  
  满足上述原则的过程我们称为“风险定价”。这可以作为所有金融的FirstPrinciple。
  
  3.上传统的风控方法
  
  风控的核心是要准确预测每一笔借款违约概率。显而易见,这需要量化的工具,也就是模型。假设x代表与借款人相关的各类数据,y代表是否违约(1=违约,0=未违约),则我们需要找到一个函数f,使得f(x)=y。我们先介绍一下x,y,f在国外的情况。以美国为例。
  
  x,y:在美国,人们一般在上大学的时候就会拥有人生中张信用卡。这样等到后续买房(房贷)买车(车贷)的时候,就已有了不短的信用历史了。美国有3家征信公司(Equifax,Experian,TransUnion)。基本上所有银行,贷款,金融机构都会上传信用数据给这3家公司,包括借款,还款,逾期等数据。征信公司会对原始数据做清洗和处理,进而产品化和商业化这些数据。这些提供数据的公司同时也是数据的使用方。任何公司都可以买到脱敏的具体到个人的信用历史数据,用作分析和建模。由于征信公司能够以处理完的字段形式输出数据,在美国,x一般是小而精的。小是指一般一个人的征信数据实际大小不大。精是指这类借款、还款、违约的历史数据,对于风控建模来说,会是有用的一块数据,因为历史借贷信息实打实地反映了一个人的信用情况。
  
  f:如果有了非常新鲜的鱼,简单地蒸一下就会非常美味。同样的道理,由于大多数美国人已经有了足够的信用历史数据,通过这些数据来预测一个人未来的违约概率,这里所用到的模型也不用很复杂。一般情况下,简单的决策树和一些回归类的模型已经能够解决90%以上的问题。非常有意思的是,类似FICO这样的公司的商业模式就是提供生成f的能力,也就是基于3家征信公司提供的数据,提供一个比较标准化的信用分给银行和金融机构。
  
  如上所述,美国的征信体系包括了数据提供方(同时也是使用方),数据整理存储方(3家征信公司),和提供数据分析解决方案的第三方(例如FICO)。整套体系经过几十年的演变进化,已经成为了一个生态。
  
  4.风控机构在大数据领域的探索
  
  我们所说的“大数据”并非指的样本量的巨大,而是把常规的信贷征信数据以外的信息统一称为“大数据”。目前看来,由于美国的征信生态体系已经比较完善,其它非信贷类数据在风控建模里的应用实际上比较有限,在大多数情况下锦上添花多过雪中送炭。例如美国大的P2P公司LendingClub早年曾经尝试只基于Facebook的社交数据来决定是否放贷。试了一段时间发现不行后,还是回到了征信数据为主,其它数据为辅的体系。目前LendingClub只考虑给FICO信用分640分以上的借款人放贷。
  
  在美国,相比全面替代基于传统征信数据的风控模型,大数据能够起到的作用可能更多的会在某个特定用户群体上的性能优化。例如,我们发现FICO分在580-600分这个区间的用户的逾期率是15%。这是比较高的风险,大多数银行和贷款公司是不做这个群体的,因为需要覆盖这么高的风险所需要的利率可能高于他们的业务允许范围了。然而,15%的人违约的反面是85%的人还是会还钱的。如果能够通过技术手段利用一些征信数据以外的数据,来提高这个群体里好人vs老赖的识别度,从平均15%违约率的群体里把相对比较好的借款人(比如违约率是5%)挑选出来,则这个群体瞬间就可以做了。已经有一些公司看到了这样的机会,也已经开始利用大数据建模做这类银行服务不到的客群了,比如近比较火的ZestFinance。
  
  5.大数据风控在中国的机遇
  
  近10年,以个人信用卡为代表的个人贷款业务在中国有了蓬勃的发展。我国的信用卡交易和风控系统在初期大量借鉴了国外的经验。银联的代系统是与VISA合作完成的。国内很多银行的风控流程和系统是从国外采购,很多风控高管也是直接从国外银行引进的。
  
  然而与国外相比,中国大的差异在于征信体系的不完善。我们的人行征信系统覆盖了8亿人,但是可能只有3亿左右是有信贷记录的,剩下的无任何信贷记录的,我们称之为白户。所以也不难理解,国内银行对于大部分非中用户实际上是不愿意也没有能力提供金融服务的。没有征信数据,那套国外搬过来的基于征信数据的方式方法就不管用了。
  
  聪明的人马上意识到,相比国外,由于中国的征信体系的不完善,基于大数据的风控的土壤实际上更成熟,更有的做。这一点对于线上获客的公司来说特别突出。相比传统银行和线下业务为主的平台,线上获客拥有以下优势:
  
  1.互联网可以提供每个借款人的庞大的、碎片化的、种类繁多的信息。这里面包括用户提交的电子化信息(如身份证、营业执照、房产证、学历证、工资单、社保,银行流水等),第三方机构的查询信息(如公民身份证查询中心、教育部学历中心、法院诉讼信息查询中心等可查询信息),还包括了海量的互联网碎片数据,如用户的电商交易信息、微博等社交网络数据,百度搜索引擎数据等。说到底,Alldataiscreditdata.
  
  2.互联网的性和爆发性使我们能以较低的成本、较短的时间,积累大量的用户数据,为分析建模提供足够的样本量。
  
  3.这种大样本量、多维度、非结构化的数据非常适合各类大数据分析处理和机器学习技术的运用。
  
  6.大数据风控的挑战
  
  伴随着机遇同样也有挑战。就像要有美味的菜肴,我们既需要好的材料,也需要好的厨师,当前大数据在风控中运用的挑战主要还是在数据和人才这两方面。
  
  数据
  
  记得我们前面所说的,风控的核心就是能够产生一个f(x),用来量化违约概率。理想情况下,好f(x)=y。这里就有一个鸡和蛋的问题。没有足够的y就做不了分析,所以除了一些很明显的信息外,我们是不知道什么样的x对于预测y会有帮助,也就是说在没有足够样本之前是很难确定该收集哪些数据的。反过来,如果有y的样本够了,但一开始就没有意识到应该存哪些x,这些样本的意义也会很有限。这个问题在那些几乎没有信贷记录的白户客群上尤其严重。终的解决方法只有不停地做测试,收集x和y,迭代x。相对于资金成本,时间成本更大。例如下图所示,用户在网页上填身份证的耗时实际上与这个人的风险是相关的。很快的人很有可能是直接复制粘贴。而填的很慢的人很有可能是记不住自己的身份证号。这两种情况下,欺诈的可能性都会高一些。
  
  退一步说,就算我们事先知道应该用什么样的x,样本特别是坏样本的积累也是很难绕过的。了解建模的同学知道,越是复杂的模型(比如更多的变量),对于坏样本(y=1)数量的要求也更高。如下图所示,一般每增加一个模型字段,我们需要相匹配地增加至少100个y=1的样本。
  
  人才
  
  除了数据,在机器学习方面的人才缺口也是比较严重的。跟传统征信数据的小而精不同的,大数据里的很多信息实际上只跟违约率有非常弱的,甚至有的时候接近于0的相关性。把这些多而杂的信息整合起来,做成一道好菜,是需要非常专业的机器学习方面的人才的。
  
  过去的10年里,机器学习领域有了天翻地覆的发展。在机器能够击败超围棋高手的时代,让机器基于海量的、人工根本来不及消化的数据来评估一个人借钱后是否会还钱,其可行性是很高的!不幸的是,量化信用评估领域在技术上的方式方法还是基本上停留在几十年前的水平,早已跟不上当前实时化、移动化、内容包罗万象的数据时代的节奏。非常简单的表现就是,除了少有的例外,目前在金融特别是风控的数据建模/数据研发的人才,无论是数量还是质量,都远远落后于互联网行业。可喜的是,业内也已经意识到了人才的匮乏所带来的瓶颈。随着行业的成熟和数据的积累,会有越来越多的数据人才加入这个行业。整个行业在基于大数据量化评估风险的能力也会有一个爆发。
我要评论
  • 2025世界计算大会专题展优秀技术、产品及应用成果火热征集中!

    2025世界计算大会同期将举办2025世界计算大会专题展,本次专题展以“智算驱动新质生产力”为主题,聚焦计算技术前沿、成果应用、产业赋能等领域,集中展示全球计算领域最新技术、产品及应用成果。
    世界计算大会量子计算云计算
    2025-10-13 11:40:29
  • 工信领域有哪些重要政策和大事要闻?一文速览→

    工业和信息化部等七部门近日联合印发《深入推动服务型制造创新发展实施方案(2025—2028年)》;近日,工业和信息化部与国家标准委联合印发《云计算综合标准化体系建设指南(2025版)》......
    服务型制造云计算
    2025-10-13 09:36:26
  • 两部门关于印发《云计算综合标准化体系建设指南(2025版)》的通知

    《云计算综合标准化体系建设指南(2025版)》提出,到2027年,新制定云计算国家标准和行业标准30项以上,不断健全云计算产业标准体系。开展标准宣贯和实施推广的企业超过1000家,以标准赋能企业数字化转型升级的成效更加凸显。加快云计算领域国际标准供给,促进产业全球化发展。
    云计算云平台软件
    2025-10-10 09:07:31
  • 2025云栖大会剧透来了!今年有这些AI新看点

    2025云栖大会以“云智一体·碳硅共生”为主题,为期三天,设三大主论坛和110余场聚合话题,预计将有来自50多个国家的2000余位嘉宾出席。
    云栖大会云计算人工智能
    2025-09-17 09:49:56
  • 人工智能+大数据:2025年它们如何塑造企业

    “2025 年商业中的人工智能与大数据”如今已成为竞争优势的代名词。人工智能 (AI) 与大数据的融合正在通过预测分析、个性化服务和自动化运营重塑全球经济的各个领域。
    人工智能大数据
    2025-09-16 10:29:40
  • 中国大数据规模未来5年增速世界第一 全球占比10%

    中国大数据市场表现格外亮眼,预计2029年中国大数据IT支出规模为730.2亿美元,全球占比约10%。
    大数据大数据技术
    2025-09-12 11:44:02
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了