R语言包含了统计计算的库和像ggplot2这样可视化分析的库,所以它不可能被完全废弃,而且它所带来的挖掘数据和统计汇总的能力是毋庸置疑的。
但是,当遇到在大数据集上构建模型的问题时,我们应该去挖掘一些像Spark ML的工具。Spark也提供R的包,SparkR可以在分布式数据集上应用R。
最好在你的“数据军营”中多放点工具,因为你不知道在“打仗”的时候会遇到什么。因此,是时候从过去的R时代迈入Spark ML的新时代了。
应该不会,impala是相当专注于传统企业客户和olap和数据仓库工作负载。
shark支持传统olap。 比较: 一、总体上 shark扩展了apache hive,大大加快在内存和磁盘上的查询。而impala是企业级数据仓库系统, 可以很好地使用hive/ hdfs,从架构层来说。
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....