Hadoop(2.x)云计算生态系统

Hadoop2.x生态系统

作者:r6

weibo:@r66r

技术QQ群:192234224

相关视频:http://edu.51cto.com/lecturer/user_id-6207546.html

简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。现在Hadoop2已经发展成熟。Hadoop使用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

Hadoop2的框架最核心的设计就是:HDFS和YARN。HDFS为海量的数据提供了存储,则YARN为集群提供资源管理的功能。

发展现状

自成为大数据分析工具以来,Hadoop 就是一个非常棒的数据存储与计算的分布式系统,但是需要开发 Java 应用来访问数据的 MapReduce 学习和使用起来却比较困难。

当然,还有别的办法可以从 Hadoop 中获取信息。Hbase数据是 Hadoop 的一部分,它可以让用户按照数据库范式来处理数据。Hive数据仓库则可以让你用类 SQL 的 HiveSQL 查询语言来创建查询并转化为 MapReduce 任务。但是总体的资源利用率不高。

Hadoop 的开发社区也意识到这个问题,随着 Hadoop 即将迭代到新的版本全新的Hadoop2,上述限制即将在很大程度上被优化了。

在 Hadoop 2.0 发布经理 Arun Murthy 看来,其最重要的变化是 MapReduce 框架升级为Apache YARN,这将扩展 Hadoop 中可以应用的软件种类和应用程度。Arun Murthy 本人就是 YARN 项目主管,他指出,Hadoop 1.0 和 2.0 的区别在于,前者所有的事情都是面向批处理的,而后者则允许多个应用同时在内部访问数据。

现在越来越多的分布式应用基于Hadoop2,例如:分布式内存计算的流处理系统Spark、Storm、Samza等越来越多的基于Yarn。我们相信,Hadoop2一定会在未来在大数据应用领域发挥更大的作用。