历史上存在的原理,以前都是使用hive来构建数据仓库,所以存在大量对hive所管理的数据查询的需求。而hive、shark、sparlSQL都可以进行hive的数据查询。shark是使用了hive的sql语法解析器和优化器,修改了执行器,使之物理执行过程是跑在spark上;而sparkSQL是使用了自身的语法解析器、优化器和执行器,同时sparkSQL还扩展了接口,不单单支持hive数据的查询,可以进行多种数据源的数据查询。
spark是一种分布式内存计算模型
hadoop是一种大数据分布式处理方案,包括hdfs(分布式存储系统),mapreduce(分布式计算框架),yarn(资源调度系统)
hive是基于hadoop的一个数据仓库,构建成类似传统关系型数据库。能够用sql执行mr任务
spark与hadoop关系,spark是内存计算框架,意味着他主要是用来进行计算,用来取代hadoop的mapreduce任务效率太低。但是计算结果,数据源,最终还是存在hadoop上的
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....