spark with hadoop

spark最大优势在于是基于内存的分布式计算框架，在计算速度方面可甩hadoop好几条街。天生就适合于多迭代的业务场景，在机器学习算法上能够充分体现。另外，spark还支持准实时流式框架spark streaming，分布式查询spark SQL、图计算graph、机器学习ML、R语言等，能够满足整条业务线的需求，从获取、处理、分析等提供支持，而不需再加入其它框架，这应该就是spark最大的野心：大一统。
在我看来，虽然基于内存是spark最大的优势，但是也会造成有些业务场景无法满足，如超大数据量的ETL。相反在这方面hadoop的mapreduce能够很好地hold，所以spark可能不断掠夺hadoop的领地，但是不可能完成替代hadoop。

　　ssh hadoop2.5 ubuntu14 vmware10 jdk1.7 方法/步骤一、ssh配置： 1、首先在三台服务器上安装ssh，服务器ip地址为： 192.168.217.128; 192.168.217.129; 192.168.217.130 sudo apt-get install openssh-server openssh-client 2、然后分别在三台服务器上执行以下命令，配置ssh免秘钥： $ ssh-keygen -t dsa -p '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 输入命令：ssh localhost 第一次需要输入密码，然后再次输入:ssh localhost 能无密码登陆，说明配置成功 3、手动复制ubuntu2,ubuntu3 ~/.ssh/id_dsa.pub 文件内容添加到ubuntu1的~/.ssh/authorized_keys 文件中；或者分别执行以下代码（注：zhou是用户名）：在ubuntu2中执行 $ scp ~/.ssh/id_dsa.pub zhou@ubuntu1:~/.ssh/authorized_keys 在ubuntu3中执行 $ scp ~/.ssh/id_dsa.pub zhou@ubuntu1:~/.ssh/authorized_keys