hadoop包含以下组件:hdfs,mapreduce,yarn。hive是数据仓库:用于管理结构化数据,数据存于hdfs上。spark是一个分布式计算框架:区别于hadoop的另一种mapreduce的计算框架。基于RDD的分布式内存计算引擎。
历史上存在的原理,以前都是使用hive来构建数据仓库,所以存在大量对hive所管理的数据查询的需求。而hive、shark、sparlsql都可以进行hive的数据查询。shark是使用了hive的sql语法解析器和优化器,修改了执行器,使之物理执行过程是跑在spark上;而sparksql是使用了自身的语法解析器、优化器和执行器,同时sparksql还扩展了接口,不单单支持hive数据的查询,可以进行多种数据源的数据查询。
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....