循序渐进学spark

理论上来讲，学习spark和storm是不需要学习hadoop的。spark和storm都是独立的开源项目，在完整性上是self-constrained的，完全可以独立学习。从循序渐进的角度，还是可以了解一下hadoop的，以spark为例，理解了hadoop的mapreduce，知道它的缺陷，才能更好的理解spark的优势和最佳的应用场景，毕竟很多开源项目都是站在hadoop的肩膀上来的。Good luck！

　　当然，起码hadoop框架内的mapreduce（分布式计算模块）和hdfs（分布式文件存储系统）你要学习，mr能够帮助你深入理解分布式的计算思维，hdfs则是大数据领域内最为常用，最为常见的文件存储系统，spark也同样要依托于hdfs进行很多的计算，另外还有hadoop2.x里面的yarn(一种可以用于多种框架的资源调度系统），spark企业级应用都是基于spark on yarn模式的