spark实践

Apache Spark项目于2009年诞生于伯克利大学的AMPLab实验室，当初的目的在于将内存内分析机制引入大规模数据集当中。在那个时候，Hadoop MapReduce的关注重点仍然放在那些本质上无法迭代的大规模数据管道身上。想在2009年以MapReduce为基础构建起分析模型实在是件费心费力而又进展缓慢的工作，因此AMPLab设计出Spark来帮助开发人员对大规模数据集执行交互分析、从而运行各类迭代工作负载——也就是对内存中的同一套或者多套数据集进行反复处理，其中最典型的就是机器学习算法。

Spark的意义并不在于取代Hadoop。正相反，它为那些高度迭代的工作负载提供了一套备用处理引擎。通过显著降低面向磁盘的写入强度，Spark任务通常能够在运行速度方面高出Hadoop MapReduce几个数量级。作为逗寄生地在Hadoop集群当中的得力助手，Spark利用Hadoop数据层（HDFS、HBase等等）作为数据管道终端，从而实现原始数据读取以及最终结果存储。

　　spark 貌似不支持直接支持深度学习吧，你可以通过 deeplearning4j与spark整合来支持。