正在阅读:数据融合:大数据应用与智能决策瓶颈

数据融合:大数据应用与智能决策瓶颈

2016-03-23 11:10:54来源:财新网 关键词:云计算大数据大数据应用阅读量:32516

导读:如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集,是每个数据科学家必须面对的具有挑战性的瓶颈。
  【中国智能制造网  市场分析】如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集,是每个数据科学家必须面对的具有挑战性的瓶颈。

  数据融合:大数据应用与智能决策瓶颈

  利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。有些人已此将大数据吹得神乎其神,好像它能成为药。其实,这只是大数据应用中的很小一部分。作为智能决策的支持手段之一,大数据在企业、事业、政府、社会管理和发展上的应用是更重要的挑战。在这里,多源数据的融合就成为大数据分析中的瓶颈。
  
  每个亲身参加过大数据项目的数据科学家、数据分析师、数据库管理员都会告诉你,项目的80%的时间和经费花在数据的准备工作上。这其中多源数据的融合是耗费资源的任务之一。难怪近纽约时报惊呼:“数据科学家把高达80%的时间用于数据准备而不是用来发现新的商业智能”。
  
  传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析。分析人员对数据的来源和结构有一定的控制和深层的了解。在大数据时代,数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理后进行挖掘和分析。在这个过程中,数据融合就成为不可或缺的一步。
  
  数据融合与数据仓库、数据一体化不同。它的目的不是将一个企业或组织的所有数据集中在一起并标准化而产生的真相。它是以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集。这个分析数据集是个独立的和灵活的实体,可随数据源的变化重组、调整和更新。数据融合胜于数据仓库和数据一体化的另一点是它能包容多源数据。
  
  数据融合有六个基本步骤:
  
  (1)连接所需多源数据库并获取相关数据,
  
  (2)研究和理解所获得的数据,
  
  (3)梳理和清理数据,
  
  (4)数据转换和建立结构,
  
  (5)数据组合,
  
  (6)建立分析数据集。
  
  这个过程的每一步都需要数据工作者认真细致的思考、辨认、测试、清理、后产生可信赖、有意义的分析数据库。在过去,这个数据准备过程很大程度上是通过手动,十分费时和艰辛。即使有数据处理的软件(如Excel,SAS,SPSS等),每个数据工作者也都是自己使用所熟悉的工具,形成个性化的,充其量是半自动的数据准备程序。近几年,大数据技术公司将数据处理整合过程中相关技术集合,组合,提升后开发出专门用于数据融合的新工具。应用这些直观、可视、的软件工具,数据准备的过程的工效大大提高,在一定程度上解决了数据融合的技术瓶颈。
  
  数据融合的另一瓶颈是思维。打个比方,数据融合就像水泥的现场合成。水泥制作可以从人工搅拌变为机械合成,提高了工效。但水泥配置仍需要正确的配方;沙、石、混凝土的比例,以及相关化学成份的添加对达到水泥的质量标准至关重要。数据处理新工具使数据科学家从数据准备的繁琐工作中解放了出来,但如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。
  
  多源的数据可以归纳为三大类:
  
  (1)一手数据,包括企业或组织直接采集掌控的内部运行数据和营销数据,
  
  (2)二级数据,第三者采集、整理、和提供的二手数据,如经济指标、人口普查、民意调查、网路数据等,
  
  (3)科学数据,包括科学研究的成果、指数、算法、模型等。
  
  这三类数据为数据为驱动的智能决策提供了不同的观察角度。一手数据具体、灵活、快速积累能够实时或接近实时地为决策者提供监测、追踪、描述信息。二级数据一般是定期公布的数据,它能提供国家、地区、行业的状况信息,成为数据分析中的可比性坐标。科学数据的更新是不定时的,但它代表着目前科研成果,对数据分析的建模和算法提供科学基础。在大数据分析项目中,数据科学家需要针对具体研究课题同时收集、整理、融合相关的三类数据。数据科学家的水平就体现在将三类数据合理、有效、有意义的融合上。
  
  数据融合是目前大数据应用和智能决策过程中一个瓶颈。这个挑战引发了新一轮大数据工具的快速发展。根据2016年高德纳公司数据管理和分析软件工具的评估报告,自我服务式数据准备软件已成为发展快的工具之一。这一发展趋势应引起我们的关注。同时,数据融合的思维瓶颈仍是所有数据科学家必须面对的更高层次的挑战。

我要评论
  • 2025世界计算大会专题展优秀技术、产品及应用成果火热征集中!

    2025世界计算大会同期将举办2025世界计算大会专题展,本次专题展以“智算驱动新质生产力”为主题,聚焦计算技术前沿、成果应用、产业赋能等领域,集中展示全球计算领域最新技术、产品及应用成果。
    世界计算大会量子计算云计算
    2025-10-13 11:40:29
  • 工信领域有哪些重要政策和大事要闻?一文速览→

    工业和信息化部等七部门近日联合印发《深入推动服务型制造创新发展实施方案(2025—2028年)》;近日,工业和信息化部与国家标准委联合印发《云计算综合标准化体系建设指南(2025版)》......
    服务型制造云计算
    2025-10-13 09:36:26
  • 两部门关于印发《云计算综合标准化体系建设指南(2025版)》的通知

    《云计算综合标准化体系建设指南(2025版)》提出,到2027年,新制定云计算国家标准和行业标准30项以上,不断健全云计算产业标准体系。开展标准宣贯和实施推广的企业超过1000家,以标准赋能企业数字化转型升级的成效更加凸显。加快云计算领域国际标准供给,促进产业全球化发展。
    云计算云平台软件
    2025-10-10 09:07:31
  • 2025云栖大会剧透来了!今年有这些AI新看点

    2025云栖大会以“云智一体·碳硅共生”为主题,为期三天,设三大主论坛和110余场聚合话题,预计将有来自50多个国家的2000余位嘉宾出席。
    云栖大会云计算人工智能
    2025-09-17 09:49:56
  • 人工智能+大数据:2025年它们如何塑造企业

    “2025 年商业中的人工智能与大数据”如今已成为竞争优势的代名词。人工智能 (AI) 与大数据的融合正在通过预测分析、个性化服务和自动化运营重塑全球经济的各个领域。
    人工智能大数据
    2025-09-16 10:29:40
  • 中国大数据规模未来5年增速世界第一 全球占比10%

    中国大数据市场表现格外亮眼,预计2029年中国大数据IT支出规模为730.2亿美元,全球占比约10%。
    大数据大数据技术
    2025-09-12 11:44:02
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了