正在阅读:了解Hadoop技术优缺点 轻松处理大数据

了解Hadoop技术优缺点 轻松处理大数据

2016-06-15 10:37:53来源:36大数据 原标题:使用Hadoop处理大数据,你需要了解它的优点和缺点 关键词:Hadoop大数据数据分析阅读量:32999

导读:由于从各光伏电站采集的数据量较大,必须解决海量数据的查询、分析的问题。目前主要考虑两种方式:1.Hadoop大数据技术;2.Oracle(数据仓库)+BI。
  【中国智能制造网 技术前沿】由于从各光伏电站采集的数据量较大,必须解决海量数据的查询、分析的问题。目前主要考虑两种方式:1.Hadoop大数据技术;2.Oracle(数据仓库)+BI;本文仅介绍hadoop的技术要应用特征。

了解Hadoop技术优缺点 轻松处理大数据
  
  Hadoop基本介绍
  
  hadoop是一个平台,是一个适合大数据的分布式存储和计算的平台。什么是分布式存储?这就是后边我们要讲的hadoop核心之一HDFS(HadoopDistributedFileSystem);什么是分布式计算?这是我们后边要讲的hadoop另外一个重要的核心MapReduce。
  
  hadoop的优点一:低成本
  
  hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的,这些服务器集群是可以支持数千个节点的。
  
  hadoop优点二:性
  
  这也是hadoop的核心竞争优势所在,接受到客户的数据请求后,hadoop可以在数据所在的集群节点上并发处理。
  
  hadoop优点三:可靠性
  
  通过分布式存储,hadoop可以自动存储多份副本,当数据处理请求失败后,会自动重新部署计算任务。
  
  hadoop优点四:扩展性
  
  hadoop的分布式存储和分布式计算是在集群节点完成的,这也决定了hadoop可以扩展至更多的集群节点。
  
  hadoop安装方式|hadoop部署方式
  
  hadoop安装方式只有三种:本地安装;伪分布安装;集群安装。
  
  Hadoop适应的场景
  

  1:超大文件
  
  可以是几百M,几百T这个级别的文件。
  
  2:流式数据访问
  
  Hadoop适用于一次写入,多次读取的场景,也就是数据复制进去之后,长时间在这些数据上进行分析。
  
  3:商业硬件
  
  也就是说大街上到处都能买到的那种硬件,这样的硬件故障率较高,所以要有很好的容错机制。
  
  Hadoop不适用的场景
  
  1:低延迟数据访问
  
  Hadoop设计的目的是大吞吐量,所以并没有针对低延迟数据访问做一些优化,如果要求低延迟,可以看看Hbase。
  
  2:大量的小文件
  
  由于NameNode把文件的MetaData存储在内存中,所以大量的小文件会产生大量的MetaData。这样的话别的文件数目还是可行的,再多的话就有问题了。
  
  3:多用户写入,任意修改
  
  Hadoop现在还不支持多人写入,任意修改的功能。也就是说每次写入都会添加在文件末尾。
  
  Hadoop业务场景(一)

  
  在大数据背景下,ApacheHadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是Hadoop的大用户呢?首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统。也许你会认为,Hadoop平台发挥作用的领域是互联网行业,用来改善分析性能并提高扩展性。其实Hadoop的应用场景远不止这一点,深入挖掘的话你会发现Hadoop能够在许多地方发挥巨大的作用。
  
  美国着名科技博客GigaOM的专栏作家DerrickHarris跟踪云计算和Hadoop技术已有多年时间,他也在近的一篇文章中总结了10个Hadoop的应用场景,下面分享给大家:
  
  在线旅游:目前范围内80%的在线旅游网站都是在使用Cloudera公司提供的Hadoop发行版,其中SearchBI网站曾经报道过的Expedia也在其中。
  
  移动数据:Cloudera运营总监称,美国有70%的智能手机数据服务背后都是由Hadoop来支撑的,也就是说,包括数据的存储以及无线运营商的数据处理等,都是在利用Hadoop技术。
  
  电子商务:这一场景应该是非常确定的,eBay就是大的实践者之一。国内的电商在Hadoop技术上也是储备颇为雄厚的。
  
  能源开采:美国Chevron公司是全美第二大石油公司,他们的IT部门主管介绍了Chevron使用Hadoop的经验,他们利用Hadoop进行数据的收集和处理,其中这些数据是海洋的地震数据,以便于他们找到油矿的位置。
 
我要评论
  • 戴尔科技智能数据平台加速企业现代化转型

    作为戴尔科技智能数据平台的存储引擎, Dell PowerScale兼具网络附加存储 (NAS) 的简便性与高并行性能,能够高效支撑包括微调、推理等多种现代化工作负载。
    智能数据平台数据分析
    2025-10-23 09:13:38
  • 人工智能+大数据:2025年它们如何塑造企业

    “2025 年商业中的人工智能与大数据”如今已成为竞争优势的代名词。人工智能 (AI) 与大数据的融合正在通过预测分析、个性化服务和自动化运营重塑全球经济的各个领域。
    人工智能大数据
    2025-09-16 10:29:40
  • 人工智能与数据分析如何重塑数字营销的未来

    随着企业加速拥抱这些技术,营销策略正逐步从单一渠道的被动响应,演变为更复杂、更智能化和更具前瞻性的体系。这一转变不仅推动了营销个性化与自动化的深化,也为2025年及以后数字经济时代的变革性增长奠定了基础。
    人工智能数据分析数字营销
    2025-09-16 10:26:48
  • 中国大数据规模未来5年增速世界第一 全球占比10%

    中国大数据市场表现格外亮眼,预计2029年中国大数据IT支出规模为730.2亿美元,全球占比约10%。
    大数据大数据技术
    2025-09-12 11:44:02
  • 新华三与广东电信深化战略合作 共拓数字经济新蓝海

    多年来广东电信与新华三一直保持着良好的合作关系,取得丰硕成果。期待双方在传统云网合作基础上,共同探索先进算力网络建设,协力深耕粤港澳大湾区数字化沃土。
    数字经济大数据
    2025-07-11 11:40:07
  • 如何利用人工智能和数据分析实现可持续绿色技术

    人工智能和数据分析为实现可持续绿色技术提供了强大的支持。通过优化资源利用、推动绿色创新和智能环境监测与保护,AI和数据分析在多个领域发挥了重要作用。
    人工智能数据分析绿色技术
    2025-06-10 15:37:59
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了