spark r

R语言包含了统计计算的库和像ggplot2这样可视化分析的库，所以它不可能被完全废弃，而且它所带来的挖掘数据和统计汇总的能力是毋庸置疑的。
但是，当遇到在大数据集上构建模型的问题时，我们应该去挖掘一些像Spark ML的工具。Spark也提供R的包，SparkR可以在分布式数据集上应用R。
最好在你的“数据军营”中多放点工具，因为你不知道在“打仗”的时候会遇到什么。因此，是时候从过去的R时代迈入Spark ML的新时代了。

　　应该不会，impala是相当专注于传统企业客户和olap和数据仓库工作负载。
shark支持传统olap。比较：一、总体上 shark扩展了apache hive，大大加快在内存和磁盘上的查询。而impala是企业级数据仓库系统, 可以很好地使用hive/ hdfs，从架构层来说。