impala性能

Impala比Spark性能还要好，但你看它现在这个鸟样。

认真来讲，Hadoop现在分三块HDFS/MR/YARN，Spark比Hadoop性能好，只是Spark作为一个计算引擎，比MR的性能要好。但它的存储和调度框架还是依赖于HDFS/YARN，Spark也有自己的调度框架，但仍然非常不成熟，基本不可商用。

目前来看，YARN在Hadoop的发展过程中占的比重较多，而且作为一个调度和资源管理框架，它可以兼容多计算框架。而且现在大数据领域的框架底层存储基本都依赖于HDFS，这也就是为什么很多文章开头就说“Hadoop已经是大数据领域的事实标准”。

回到问题，大数据领域，“性能”可能并不是衡量一个大数据组件的唯一标准，安全、可靠性、与其他框架的兼容性、资源管理、可扩展性同样很重要，而Hadoop作为大数据领域的核心组件，这些方面肯定都需要考虑，而不单单是性能。

　　我想你指的hadoop作业是指map/reduce作业。主要的差别有如下3点：1、mr作业的资源管控是通过yarn进行的，spark可以通过yarn进行资源管控，也可以不使用yarn，但是多个组件合设时（如集群中既有spark计划，又有hbase查询），建议还是使用yarn；2、spark是基于内存计算的，计算的中间结果存放在内存，可以进行反复迭代计算；而mr计算的中间结果是要落磁盘的，所以一个job会涉及到反复读写磁盘，这也是性能比不上spark的主要原因；3、mr的一个task就要对应一个container，container的每次启动都要耗费不少时间，有些hadoop版本（如华为oceaninsighthadoop）实现了容器预热（重用）功能，这个消耗可能会小一些；而spark是基于线程池来实现的，资源的分配会更快一些。