spark最大优势在于是基于内存的分布式计算框架,在计算速度方面可甩hadoop好几条街。天生就适合于多迭代的业务场景,在机器学习算法上能够充分体现。另外,spark还支持准实时流式框架spark streaming,分布式查询spark SQL、图计算graph、机器学习ML、R语言等,能够满足整条业务线的需求,从获取、处理、分析等提供支持,而不需再加入其它框架,这应该就是spark最大的野心:大一统。
在我看来,虽然基于内存是spark最大的优势,但是也会造成有些业务场景无法满足,如超大数据量的ETL。相反在这方面hadoop的mapreduce能够很好地hold,所以spark可能不断掠夺hadoop的领地,但是不可能完成替代hadoop。
ssh hadoop2.5 ubuntu14 vmware10 jdk1.7 方法/步骤 一、ssh配置: 1、首先在三台服务器上安装ssh,服务器ip地址为: 192.168.217.128; 192.168.217.129; 192.168.217.130 sudo apt-get install openssh-server openssh-client 2、然后分别在三台服务器上执行以下命令,配置ssh免秘钥: $ ssh-keygen -t dsa -p '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 输入命令:ssh localhost 第一次需要输入密码,然后再次输入:ssh localhost 能无密码登陆,说明配置成功 3、手动复制ubuntu2,ubuntu3 ~/.ssh/id_dsa.pub 文件内容添加到ubuntu1的~/.ssh/authorized_keys 文件中; 或者分别执行以下代码(注:zhou是用户名): 在ubuntu2中执行 $ scp ~/.ssh/id_dsa.pub zhou@ubuntu1:~/.ssh/authorized_keys 在ubuntu3中执行 $ scp ~/.ssh/id_dsa.pub zhou@ubuntu1:~/.ssh/authorized_keys
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....