mapreduce 2.0源码

1. Apache Mesos

代码托管地址： Apache SVN

Mesos提供了高效、跨分布式应用程序和框架的资源隔离和共享，支持Hadoop、 MPI、Hypertable、Spark等。

Mesos是Apache孵化器中的一个开源项目，使用ZooKeeper实现容错复制，使用Linux Containers来隔离任务，支持多种资源计划分配（内存和CPU）。提供Java、Python和C++ APIs来开发新的并行应用程序，提供基于Web的用户界面来提查看集群状态。

2. Hadoop YARN

代码托管地址： Apache SVN

YARN又被称为MapReduce 2.0，借鉴Mesos，YARN提出了资源隔离解决方案Container，但是目前尚未成熟，仅仅提供 Java 虚拟机内存的隔离。

对比MapReduce 1.x，YARN架构在客户端上并未做太大的改变，在调用 API 及接口上还保持大部分的兼容，然而在YARN中，开发人员使用 ResourceManager、ApplicationMaster 与 NodeManager代替了原框架中核心的 JobTracker 和 TaskTracker。其中 ResourceManager 是一个中心的服务，负责调度、启动每一个 Job 所属的 ApplicationMaster，另外还监控 ApplicationMaster 的存在情况；NodeManager负责 Container 状态的维护，并向 RM 保持心跳。ApplicationMaster 负责一个 Job 生命周期内的所有工作，类似老的框架中 JobTracker。

Hadoop上的实时解决方案

前面我们有说过，在互联网公司中基于业务逻辑需求，企业往往会采用多种计算框架，比如从事搜索业务的公司：网页索引建立用MapReduce，自然语言处理用Spark等。本节为大家分享的则是Storm、Impala、Spark三个框架：

3. Cloudera Impala

代码托管地址： GitHub

Impala是由Cloudera开发，一个开源的Massively Parallel Processing（MPP）查询引擎。与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口(Hue Beeswax)，可以直接在HDFS或HBase上提供快速、交互式SQL查询。Impala是在Dremel的启发下开发的，第一个版本发布于2012年末。

Impala不再使用缓慢的Hive+MapReduce批处理，而是通过与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。