正在阅读:构建成功大数据基础设施 七大要点需谨记

构建成功大数据基础设施 七大要点需谨记

2016-10-29 09:06:29来源:51CTO 编辑:沐子飞 关键词:大数据云存储数据挖掘阅读量:30311

导读:大数据是当今许多企业IT运营的一个重要组成部分。据调研公司IDC预测,到2019年,大数据市场产值将达到1870亿美元。
  【中国智能制造网 市场分析】大数据是当今许多企业IT运营的一个重要组成部分。据调研公司IDC预测,到2019年,大数据市场产值将达到1870亿美元。大数据是数据分析的一个关键部分,而分析又是机器和人类商业智能及决策的基础。因为很明显,要是没有某种基础设施,你无法获得各种数据:大数据、小数据或完全正确的数据,所以有必要看一看有助于构建成功大数据架构的几个因素。

构建成功大数据基础设施 七大要点需谨记
  
  其中,一些因素可能看起来很明显,另一些则比较微妙。实际上,所有因素共同对你的大数据系统将支持的分析和行动带来巨大的影响。
  
  当然,不是说只有这七个因素才会对大数据基础设施的工作方式带来影响。大数据系统牵涉好多部分,但这七个因素值得你考虑,因为它们是许多其他部分和流程的基础。
  
  眼下,你可能在使用大数据,即便你是在一家小公司工作。这要拜现有的基础设施部分所赐――其中许多部分连小的IT部门也能访问。
  
  伴随这种可访问性而来的是,那些本身并不拥有数据科学专长的小公司员工可能感到困惑和沮丧。如果你处于这种情形,本文不会消除你的所有困惑,但是让你可以开始向潜在的服务提供商和供应商提一些针对性的问题。
  
  大数据远不止Hadoop
  
  在平常的谈话中,大数据和Hadoop常常被人换着使用。这样的结果让人遗憾,因为大数据远不止Hadoop。 Hadoop是一种文件系统(而不是数据库),旨在跨数百或数千个处理节点传送数据。它用于许多大数据应用,原因是作为一种文件系统,它擅长处理非结构化数据,这类数据甚至不像其周围的数据。当然,一些大数据是结构化的,为此你需要一个数据库。但数据库是本文介绍的一个不同因素。
  
  Hive和Impala将数据库引入到Hadoop
  
  这里说的是面向大数据世界中结构化数据的数据库。如果你想让Hadoop数据平台井然有序,那么Hive可能正是你需要的。这种基础设施工具让你可以针对非常不像SQL的Hadoop处理类似SQL的操作。
  
  如果你有一部分数据很容易放在结构化数据库中,那么Impala是旨在驻留在Hadoop里面的数据库,它还可以使用你从Hadoop转换到SQL过程中开发的Hive命令。所有这三个(Hadoop、Hive和Impala)都是Apache项目,所以它们都是开源的。
  
  Spark用于处理大数据
  
  到目前为止,我们一直在谈论存储和组织数据。但是,如果你想实际处理数据又怎么样?这时候,你就需要一种像Spark这样的分析和处理引擎。Spark是另一个Apache项目,它包括一批开源和商业产品,拿来你添加到数据湖、仓库和数据库的数据后,对数据做一些有用的操作。
  
  由于它可以访问你能想象的任何数据的库,Spark可用于处理存储在各种地方的各种数据。它同样是开源的,所以你可以随意修改它。
  
  你可以对大数据执行SQL操作
  
  许多人知道如何构建SQL数据库和编写SQL查询。面对大数据时,这种专长没有必要浪费。Presto是一种开源SQL查询引擎,它让数据科学家可以使用SQL查询,查询驻留在从Hive到专有商业数据库管理系统的任何环境的数据库。它被Facebook之类的大公司用于交互式查询,而交互式查询这个短语是关键。Presto就好比是一种对庞大数据集执行即席交互式查询的工具。
  
  在线存储有一席之地
  
  一些大数据任务需要用到不断变化的数据。有时候,这是定期添加的数据,有时是通过分析而更改的数据。不管在什么情况下,如果你的数据写入与读取一样频繁,那么你就需要该数据存储在本地、联机。如果你支付得起成本,还希望数据存储在固态存储介质上,因为这会大大加快速度――如果你在零售或交易场地的人员焦急地等待结果返回,这是个重要的考虑因素。
  
  云存储也有一席之地
  
  如果在更庞大的聚合数据库上进行分析,那么云是的平台。聚合数据并传输到云,运行分析,然后拆掉实例。这正是云擅长的那种弹性需求响应。操作不会受到互联网可能带来的任何延迟问题的显著影响。如果你把在专用本地系统上进行的实时分析与云端运行的深度分析结合起来,那么离充分发挥大数据基础设施的潜力近在咫尺。
  
  别忘了可视化
  
  分析大数据是一回事,以一种对大多数人有意义的方式来显示分析结果又是另一回事。图形对于整个“解读”工作大有帮助,所以应该将数据可视化视作是大数据基础设施的一个关键部分。
  
  幸好,有许多方法可以实现可视化,从Java Script库、商业可视化软件包到在线服务,不一而足。重要的是什么?从中选择一小部分,试一试,并且让你的用户尝试一下。你会发现,可靠的可视化是让你的大数据分析尽可能出成果的佳方式。
  
  以上就是你在企业处理大数据时应知道并牢记的七个关键。
  
  (原标题:构建成功大数据基础设施的七大关键点)
我要评论
  • 人工智能+大数据:2025年它们如何塑造企业

    “2025 年商业中的人工智能与大数据”如今已成为竞争优势的代名词。人工智能 (AI) 与大数据的融合正在通过预测分析、个性化服务和自动化运营重塑全球经济的各个领域。
    人工智能大数据
    2025-09-16 10:29:40
  • 中国大数据规模未来5年增速世界第一 全球占比10%

    中国大数据市场表现格外亮眼,预计2029年中国大数据IT支出规模为730.2亿美元,全球占比约10%。
    大数据大数据技术
    2025-09-12 11:44:02
  • 合肥都市圈要素市场化配置综合改革试点实施方案

    发挥安徽省数据交易所枢纽作用,推进数据流通交易,建设合规高效的数据流通交易平台,发挥数据产业促进、交易技术创新、数商生态合作等功能,打造全国一流、特色鲜明的区域性数据交易场所。
    要素市场化配置改革数据挖掘
    2025-09-12 09:37:09
  • 新华三与广东电信深化战略合作 共拓数字经济新蓝海

    多年来广东电信与新华三一直保持着良好的合作关系,取得丰硕成果。期待双方在传统云网合作基础上,共同探索先进算力网络建设,协力深耕粤港澳大湾区数字化沃土。
    数字经济大数据
    2025-07-11 11:40:07
  • 物流智能转型新引擎:DeepSeek+物流

    DeepSeek 物流不仅是技术的革新,更是城市发展的重要推动力。它通过智能化手段提升物流效率、优化资源利用、减少环境影响,并为智慧城市建设提供支撑。未来,随着AI技术的不断进步,物流行业将迎来更深刻的变革。
    物流大数据服务平台
    2025-04-30 10:11:15
  • 2025年4月1日开始施行的重要新规一览

    四月,一系列新规定即将实施,包括《公共安全视频图像信息系统管理条例》、《车联网网络安全异常行为检测机制》等。
    大数据服务平台
    2025-04-02 09:31:36
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了