不一定,如果你不用Hadoop的HDFS和YARN,完全可以在学习Spark的时候从本地载入数据,部署用standlone模式。Spark替代的是Hadoop中的MapReduce编程范式,不包括存储和资源管理模块。
Spark的算子很多,写程序来看比Hadoop MapReduce要灵活很多,而且跟写普通程序差不多,只是用了Spark的包和库而已。但需要选择一个语言,Spark用Scala或者java python等,我是现学的Scala,只不过用的时候没管那么多语法糖和简洁什么,怎么方便怎么来,不影响程序逻辑就行。
Hadoop可以看看了解了解,Hadoop MapReduce能做的Spark基本都能做,但Spark很吃内存,经常OOM。
hdfs一定要, 然后mapreduce的思想, 主要是学习分布式的思想。
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....