spark内核

Spark是基于内存，是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目，尤其出色的支持Interactive Query、流计算、图计算等。 Spark在机器学习方面有着无与伦比的优势，特别适合需要多次迭代计算的算法

　　当下hadoop的主要应用场景在归档、搜索引擎（老本家）及数据仓库上面，各个机构使用hadoop不同的组件来实现自己的用例。而在这3个场景之外还有一个比较冷门的场景——流处理，这块源于hadoop 2.0可结合其他框架的特性，而在将来，hadoop肯定会发展到联机数据处理。