应该是Hadoop在hbase和Hive中的作用吧。 hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。而hbase是作为分布式数据库,而hive是作为分布式数据仓库。当然hive还是借用hadoop的MapReduce来完成一些hive中的命令的执行。而hbase与hive都是单独安装的。你需要哪个安装哪个,所以不存在重复信息。
hadoop作为底层存储是说HDFS吗 HDFS和HBase 还有Hive到底谁担任数据库呢 具体怎么分工?
我的意思是 如果有多个数据库的话 数据库资料不会重复吗?
hdfs作为底层存储,hdfs是存放文件的系统,而Hbase负责组织文件。hive需要用到hdfs存储文件,需要用到MapReduce计算框架。 多个数据库(hbase)的资料,肯定是单独组织的。不会共享。
你这个问题,问的太大了。目前可能有很多人都在熟悉使用hadoop,当然就会有很多人研究它了。默认的集群环境并不是最优的,所以为了提升集群的性能,人们就开始研究hadoop的优化了。现在,通常从以下几个方面对hadoop进行优化:
1、数据放置和数据副本数量的选择。集群默认情况一般有三个副本,并且集群默认每个节点的计算能力是一样的,在分配数据块的时候,均匀分布在每个节点上。实际环境中,更多的是每个节点得各方面能力是不同的,比如计算能力,那么原有的数据分配方式就那么合适了,需要根据节点的能力,合理的放置数据块,从而提升性能。数据副本的数量也会影响hadoop的性能,这里边涉及到数据迁移的问题。
2、参数配置方面。例如数据块的大小当前大多数是128或者64m,相对来说是比较合理的。那么这个值真的适合你的集群环境吗?是否有方法可以计算出集群的最优状态下的数据块大小,这个需要研究。当然还有很多参数,需要优化,比如容器大小,内存分配,map和reduce数量等。
3、作业调度问题。给你一堆的job,如何合理的调度使得执行最快。这也是优化的方向,虽然集群有默认的三种调度策略,但并不一定是最好的。
当然还有很多优化,这里就不一一列举了,如果你感兴趣,可以去网上搜索更多的参考资料!
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....