Hadoop(2.x)云计算生态系统
Hadoop2.x云计算体系介绍
- 0.1. PIG-大数据离线分析利器
1. Hadoop2特点
2. Hadoop2概述
3. Hadoop2安装部署
4. Kafka分布式消息队列
5. AerospikeDB实时数据库
6. PIG 大数据离线分析利器
7. zookeeper分布式管理
8. Samza分布式流计算
- 8.1. 背景
- 8.2. 概念
- 8.3. 架构
- 8.4. 流处理系统对比
- 8.5. API
- 8.6. 容器 Container
- 8.7. Jobs
  - 8.7.1. JobRunner
  - 8.7.2. Configuration
  - 8.7.3. Packaging
  - 8.7.4. YARN Jobs
  - 8.7.5. Logging
  - 8.7.6. Reprocessing
- 8.8. YARN
  - 8.8.1. Application Master
  - 8.8.2. Isolation
- 8.9. 案例实践
9. Spark 分布式内存计算
10. Scala语言

Hadoop(2.x)云计算生态系统

Hadoop2.x生态系统

作者：r6

weibo：@r66r

技术QQ群：192234224

简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。现在Hadoop2已经发展成熟。Hadoop使用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

Hadoop2的框架最核心的设计就是：HDFS和YARN。HDFS为海量的数据提供了存储，则YARN为集群提供资源管理的功能。

发展现状

自成为大数据分析工具以来，Hadoop 就是一个非常棒的数据存储与计算的分布式系统，但是需要开发 Java 应用来访问数据的 MapReduce 学习和使用起来却比较困难。

当然，还有别的办法可以从 Hadoop 中获取信息。Hbase数据是 Hadoop 的一部分，它可以让用户按照数据库范式来处理数据。Hive数据仓库则可以让你用类 SQL 的 HiveSQL 查询语言来创建查询并转化为 MapReduce 任务。但是总体的资源利用率不高。

Hadoop 的开发社区也意识到这个问题，随着 Hadoop 即将迭代到新的版本全新的Hadoop2，上述限制即将在很大程度上被优化了。

在 Hadoop 2.0 发布经理 Arun Murthy 看来，其最重要的变化是 MapReduce 框架升级为Apache YARN，这将扩展 Hadoop 中可以应用的软件种类和应用程度。Arun Murthy 本人就是 YARN 项目主管，他指出，Hadoop 1.0 和 2.0 的区别在于，前者所有的事情都是面向批处理的，而后者则允许多个应用同时在内部访问数据。

现在越来越多的分布式应用基于Hadoop2，例如：分布式内存计算的流处理系统Spark、Storm、Samza等越来越多的基于Yarn。我们相信，Hadoop2一定会在未来在大数据应用领域发挥更大的作用。