spark 分布式

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算.Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小。

　　spark是一个高效的分布式计算系统，相比hadoop，它在性能上比hadoop要高100倍。spark提供比hadoop更上层的api，同样的算法在spark中实现往往只有hadoop的1/10或者1/100的长度。