Hadoop(2.x)云计算生态系统
Hadoop2.x云计算体系介绍
- 0.1. PIG-大数据离线分析利器
1. Hadoop2特点
2. Hadoop2概述
3. Hadoop2安装部署
4. Kafka分布式消息队列
5. AerospikeDB实时数据库
6. PIG 大数据离线分析利器
7. zookeeper分布式管理
8. Samza分布式流计算
- 8.1. 背景
- 8.2. 概念
- 8.3. 架构
- 8.4. 流处理系统对比
- 8.5. API
- 8.6. 容器 Container
- 8.7. Jobs
  - 8.7.1. JobRunner
  - 8.7.2. Configuration
  - 8.7.3. Packaging
  - 8.7.4. YARN Jobs
  - 8.7.5. Logging
  - 8.7.6. Reprocessing
- 8.8. YARN
  - 8.8.1. Application Master
  - 8.8.2. Isolation
- 8.9. 案例实践
9. Spark 分布式内存计算
10. Scala语言

Hadoop(2.x)云计算生态系统

zk中的存储结构

涉及到的相关项目为

kafka 0.8.1.1

zookeeper 3.3.6

环境下面的存储的结构

图片中描述了kafka在zk中的存储结构，以及存储的相关数据，绿色代表的是zk的临时节点，当对应的进程退出后，此临时的znode将自动删除。由于consumer的offset节点保存对应的partition的消息队列的消息消费情况，当消费者退出后，继任的消费者需要在之前结束的地方继续下去，因此，此节点不是临时节点。

kafka创建的队列情况为：

Topic:test_kafka    PartitionCount:3    ReplicationFactor:3    Configs:
Topic: test_kafka    Partition: 0    Leader: 2    Replicas: 1,2,0    Isr: 2,0,1
Topic: test_kafka    Partition: 1    Leader: 2    Replicas: 2,0,1    Isr: 2,0,1
Topic: test_kafka    Partition: 2    Leader: 2    Replicas: 0,1,2    Isr: 2,0,1

Partition 为3个，Replicas 为3个。

下面详细介绍每类主要节点：

Controller epoch:

/controller_epoch -> int (epoch)

此值为一个数字,kafka集群中第一个broker第一次启动时为1，以后只要集群中center controller中央控制器所在broker变更或挂掉，就会重新选举新的center controller，每次center controller变更controller_epoch值就会 + 1;原因是Paxos算法更新分布式系统保证数据一致性的时候，需要确认当前事务id必须是最大的。

Broker注册信息

/brokers/ids/[0...N]

每个broker的配置文件中都需要指定一个数字类型的id(全局不可重复),此节点为临时znode(EPHEMERAL)

Schema:
{
“jmx_port”:-,               //JMX的端口号
“timestamp”:”1416789803974″,//broker启动的时间戳
“host”:”JobTracker”,        //broker 进程所在的机器的机器名
“version”:1,                //默认的版本
“port”:9092                 //broker进程的对外监听的端口号
}

/brokers/topics/topic1/partition/[0...n]

保存broker上面建立的topic队列的相关信息，以及对应的分区的数量，以及每个分区的元数据。

Schema:
{
“controller_epoch”:9,   //中央控制器的总的选举次数
“leader”:2,             //此partition的broker leader的id
“version”:1,            //默认版本号
“leader_epoch”:7,       //此partition的leader选举的次数
“isr”:[2,0,1]           //同步副本组brokerId顺序列表
}

Controller注册信息:

存储center controller中央控制器所在kafka broker的信息

Schema:
 {
“version”:1,
“brokerid”:3,
“timestamp”:”1416789802220″
}

Consumer注册信息:

每个consumer都有一个唯一的ID(consumerId可以通过consumer的客户端配置文件指定,也可以由系统自动生成，建议开发者自己制定ID),此id用来标记消费者信息.

/consumers/[groupId]/ids/[consumerIdString]

Schema:
 {
“version”:1,
“subscription”:{“test_kafka”:3},    //订阅topic列表
“topic名称”: consumer中topic消费者线程数[与队列的分区数量有关]
“pattern”:”static”,
“timestamp”:”1416810012297″
}

Consumer owner:

/consumers/[groupId]/owners/[topic]/[partitionId]/consumer_thread

用来保存每个topic的的partition的是由那个消费者线程进行消费的信息。 Consumer offset:

/consumers/[groupId]/offsets/[topic]/[partitionId] /offset number

此节点是持久化节点，保存当前需要处理的消息的偏移量，用来继任消费者继续此节点开始处理消息。