spark Hadoop

hadoop:是分布式存储系统，同时提供分布式计算环境，存储称为hdfs，计算称为mapreduce 简称MR。
spark：是一个分布式计算框架，类似于hadoop的运算环境，但是比mapreduce提供了更多支持，与其他系统的对接，一些高级算法等，可以独立运行，也可以使用hdfs上的数据，调度任务也可以基于hadoop的yarn来管理。由于整个计算都可以在内存中完成，所以速度自然比传统的MR计算的快。除此之外spark运行时占用的系统资源也比MR小得多，相比较属于轻量级运行。最核心的也是它提供的分析学习算法，这个大部分分布式架构不具有的。
一般spark下的编程多数基于scala来完成，而非java，所以想学习spark一定要学习scala语言