hadoop模型

MapReduce模型
MapReduce模型，在并行计算领域最著名的就是MPI模型，MPI是一种消息传递编程模型，在大规模科学计算领域已经成功应用了数年，而MapReduce则是一种近几年出现的相对较新的并行编程技术，但是MapReduce计算模型也是建立在数学和计算机科学基础上的，实践已经证明这种并行编程模型具有简单、高效的特点，最为重要的两个概念就是Map和Reduce，最基本的处理思想就是“分而治之，然后归约”。
Hadoop会将一个大任务分解为可以同时执行的多个小任务，从而达到并行计算的目的。举个简单的例子，对于一个大型任务，单机处理需要1024分钟，而分解为1024个子任务并行执行就可在1分钟完成处理。在对处理的数据集的要求上，相比于传统关系数据库的结构化数据，MapReduce模型的Hadoop框架适合半结构化或非结构化的数据。
Hadoop通过自动分割将要执行的问题(程序)、拆解成Map(映射)和Reduce(化简)的方式，其分解过程的实质是将问题分为几个部分，划分为可以应用于程序的数据，再将数据分解，然后对分解的数据进行并行操作，在自动分割后通过Map程序将数据映射成不相关的区块，分配(调度)给大量的计算机进行处理以达到分散运算的效果，再通过Reduce程序将结果汇总整合，输出开发者需要的结果。