Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。优势应该在于分布式架构比较相似能快速上手吧
是的。
1、下载spark。
下载的是不含hadoop的版本:spark-1.6.0-bin-without-hadoop
2、将spark安装到各机器上的/usr/lib目录下。
安装后路径为: /usr/lib/spark-1.6.0-without-hadoop
3、在各机器上创建spark用户,用户组设置为hadoop。
sudo useradd spark -g hadoop -m
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....