目前开源hadoop只包含hdfs,mr,和yarn,yarn是hadoop2新增组件。
hdfs是hadoop分布式文件系统,主要采用多备份方式存储文件,可以对接hive和hbase等产品并存储对应数据。
mapreduce是大数据处理并行框架,用户可以编写自己的程序调用mr框架并行的处理大数据,在调用过程中可以调整m和r的数目。不过总的来说编程相对复杂,因此诞生了hive.
yarn作为新生控件,主要管理hadoop各个模块运行过程中的任务调度,目前主要有公平调度与容量调度两种模型.
如果需要其他组件,需要单独下载安装。
apache hadoop 项目有两个核心组件,被称为 hadoop 分布式文件系统 (hadoop distributed file system, hdfs) 的文件存储,以及被称为 mapreduce 的编程框架。有一些支持项目充分利用了 hdfs 和 mapreduce。
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....