hadoop:是分布式存储系统,同时提供分布式计算环境,存储称为hdfs,计算称为mapreduce 简称MR。
spark:是一个分布式计算框架,类似于hadoop的运算环境,但是比mapreduce提供了更多支持,与其他系统的对接,一些高级算法等,可以独立运行,也可以使用hdfs上的数据,调度任务也可以基于hadoop的yarn来管理。由于整个计算都可以在内存中完成,所以速度自然比传统的MR计算的快。除此之外spark运行时占用的系统资源也比MR小得多,相比较属于轻量级运行。最核心的也是它提供的分析学习算法,这个大部分分布式架构不具有的。
一般spark下的编程多数基于scala来完成,而非java,所以想学习spark一定要学习scala语言
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....