正在阅读:解读:两大国人认知多的开源大数据分析系统

解读:两大国人认知多的开源大数据分析系统

2016-06-20 09:27:52来源:数据分析网 原标题:Spark VS Hadoop 两大大数据分析系统深度解读 关键词:大数据分析SparkHadoop阅读量:31022

导读:在中国,政府控制着80%的数据,剩下的多由“BAT”这样的大公司拥有,中小企业如何构建自己的大数据系统?其他企业如何建设自己的大数据系统?
  【中国智能制造网 技术前沿】大数据,无论是从产业上,还是从技术上来看,都是目前的发展热点。在中国,政府控制着80%的数据,剩下的多由“BAT”这样的大公司拥有,中小企业如何构建自己的大数据系统?其他企业如何建设自己的大数据系统?

解读:两大国人认知多的开源大数据分析系统
  
  推荐两大应用广泛、国人认知多的Apache开源大数据框架系统:SparkHadoop
  
  Spark:速度快、易于使用
  
  Spark以性能见长,但是它也因易用性而小有名气,原因是它随带易于使用的API,支持Scala(原生语言)、Java、Python和SparkSQL。SparkSQL非常类似于SQL92,所以几乎不需要经历一番学习,马上可以上手。
  
  Spark是UC Berkeley AMPlab所开源的类Hadoop Map Reduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有Hadoop Map Reduce所具有的优点;但不同于Map Reduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。
  
  Spark还有一种交互模式,那样开发人员和用户都可以获得查询和其他操作的即时反馈。Map Reduce没有交互模式,不过有了Hive和Pig等附加模块,采用者使用Map Reduce来得容易一点。
  
  成本上来看:Spark需要大量内存,但是可以使用常规数量的常规转速磁盘。一些用户抱怨会产生临时文件,需要清理。这些临时文件通常保存7天,以便加快针对同一数据集的任何处理。磁盘空间相对便宜,由于Spark不使用磁盘输入/输入用于处理,已使用的磁盘空间可以用于SAN或NAS。
  
  容错上:Spark使用弹性分布式数据集(RDD),它们是容错集合,里面的数据元素可执行并行操作。RDD可以引用外部存储系统中的数据集,比如共享式文件系统、HDFS、HBase,或者提供Hadoop In put Format的任何数据源。Spark可以用Hadoop支持的任何存储源创建RDD,包括本地文件系统,或前面所列的其中一种文件系统。
  
  Hadoop:分布式文件系统
  
  Hadoop是Apache.org的一个项目,其实是一种软件库和框架,以便使用简单的编程模型,跨计算器集群对庞大数据集(大数据)进行分布式处理。Hadoop可灵活扩展,从单一计算机系统,到提供本地存储和计算能力的数千个商用系统,它都能轻松支持。实际上,Hadoop就是大数据分析领域的重量级大数据平台。
  
  Hadoop由协同运行、构建Hadoop框架的多个模块组成。Hadoop框架的主要模块包括如下:
  
  •HadoopCommon
  
  •Hadoop分布式文件系统(HDFS)
  
  •HadoopYARN
  
  •HadoopMapReduce
  
  虽然上述四个模块构成了Hadoop的核心,不过还有其他几个模块。这些模块包括:Ambari、Avro、Cassandra、Hive、Pig、Oozie、Flume和Sqoop,它们进一步增强和扩展了Hadoop的功能,得以扩大到大数据应用领域,处理庞大数据集。
  
  许多使用大数据集和分析工具的公司使用Hadoop。它已成为大数据应用系统中事实上的标准。设计Hadoop的初衷是处理这项任务:搜寻和搜索数十亿个网页,将这些信息收集到数据库中。正是由于渴望搜寻和搜索互联网,才有了Hadoop的HDFS及分布式处理引擎MapReduce。
  
  成本上:MapReduce使用常规数量的内存,因为数据处理基于磁盘,所以公司得购买速度更快的磁盘和大量磁盘空间来运行MapReduce。MapReduce还需要更多的系统,将磁盘输入/输出分布到多个系统上。
  
  容错上:MapReduce使用TaskTracker节点,它为JobTracker节点提供了心跳(heartbeat)。如果没有心跳,那么JobTracker节点重新调度所有将执行的操作和正在进行的操作,交给另一个TaskTracker节点。这种方法在提供容错性方面很有效,可是会大大延长某些操作(即便只有一个故障)的完成时间。
  
  总结:Spark与MapReduce是一种相互共生的关系。Hadoop提供了Spark所没有的功能特性,比如分布式文件系统,而Spark为需要它的那些数据集提供了实时内存处理。的大数据场景正是设计人员当初预想的那样:让Hadoop和Spark在同一个团队里面协同运行。
我要评论
  • 建筑孪生市场:彻底改变建筑和智能基础设施

    这一技术的核心理念源自“数字孪生”(Digital Twin)概念,即利用物联网(IoT)、人工智能(AI)与大数据分析,构建与现实实体同步的虚拟模型。对于建筑行业而言,建筑孪生不仅是数字化管理的延伸,更是实现智能建造、绿色运维与城市智慧化管理的重要基础设施。
    人工智能大数据分析
    2025-10-15 11:29:52
  • 深入探讨2024年大数据分析领域的十大新趋势 对各行各业产生哪些深远影响

    进入2024年,随着人工智能(AI)、机器学习(ML)、边缘计算、云计算等技术的融合,企业对数据分析的需求不仅仅局限于传统的报告生成和趋势发现,更多的是基于实时数据做出快速决策、预测未来发展、优化资源配置和提高客户体验。
    大数据分析人工智能
    2024-12-16 10:37:01
  • 大数据分析如何重塑物联网(IoT)?

    大数据分析和物联网之间的融合带来了大量的商业机会,可以更深入地了解其运营功能及客户偏好。让我们来了解一下。
    大数据分析物联网
    2023-02-19 09:10:30
  • 重磅!阿里云淮北地区双碳数字经济产业园项目成功签约

    中国数字经济规模占47个国家总量的18%以上,位居世界第二。有专家认为,我国数字经济发展势头强劲,不同城市均被数字经济所带动,依据自身的优势和方向,走出了各具特色的“数字 实体经济”结合之路。
    数字经济数据仓库大数据分析
    2023-01-05 09:28:15
  • 物联网在制造业中的应用有哪些?

    人工智能、物联网和大数据分析都是工业领域的技术创新。物联网是非常有益的,特别是对于那些需要快速发展和高质量产品的行业。
    物联网人工智能大数据分析
    2022-09-18 08:30:57
  • 基于大数据分析处理,智慧城市数据基础设施更加稳固

    智慧城市将为各种应用部署下一代技术,如人工智能和物联网,将创建大量的数据,同时彼此通信,以提高各种功能的效率。
    大数据分析智慧城市
    2021-07-22 13:51:02
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了