Impala比Spark性能还要好,但你看它现在这个鸟样。
认真来讲,Hadoop现在分三块HDFS/MR/YARN,Spark比Hadoop性能好,只是Spark作为一个计算引擎,比MR的性能要好。但它的存储和调度框架还是依赖于HDFS/YARN,Spark也有自己的调度框架,但仍然非常不成熟,基本不可商用。
目前来看,YARN在Hadoop的发展过程中占的比重较多,而且作为一个调度和资源管理框架,它可以兼容多计算框架。而且现在大数据领域的框架底层存储基本都依赖于HDFS,这也就是为什么很多文章开头就说“Hadoop已经是大数据领域的事实标准”。
回到问题,大数据领域,“性能”可能并不是衡量一个大数据组件的唯一标准,安全、可靠性、与其他框架的兼容性、资源管理、可扩展性同样很重要,而Hadoop作为大数据领域的核心组件,这些方面肯定都需要考虑,而不单单是性能。
我想你指的hadoop作业是指map/reduce作业。主要的差别有如下3点:1、mr作业的资源管控是通过yarn进行的,spark可以通过yarn进行资源管控,也可以不使用yarn,但是多个组件合设时(如集群中既有spark计划,又有hbase查询),建议还是使用yarn;2、spark是基于内存计算的,计算的中间结果存放在内存,可以进行反复迭代计算;而mr计算的中间结果是要落磁盘的,所以一个job会涉及到反复读写磁盘,这也是性能比不上spark的主要原因;3、mr的一个task就要对应一个container,container的每次启动都要耗费不少时间,有些hadoop版本(如华为oceaninsighthadoop)实现了容器预热(重用)功能,这个消耗可能会小一些;而spark是基于线程池来实现的,资源的分配会更快一些。
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....