mapreduce 访问hbase

应该是Hadoop在hbase和Hive中的作用吧。 hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。而hbase是作为分布式数据库，而hive是作为分布式数据仓库。当然hive还是借用hadoop的MapReduce来完成一些hive中的命令的执行。而hbase与hive都是单独安装的。你需要哪个安装哪个，所以不存在重复信息。

hadoop作为底层存储是说HDFS吗 HDFS和HBase 还有Hive到底谁担任数据库呢具体怎么分工?
我的意思是如果有多个数据库的话数据库资料不会重复吗?

hdfs作为底层存储，hdfs是存放文件的系统，而Hbase负责组织文件。hive需要用到hdfs存储文件，需要用到MapReduce计算框架。多个数据库（hbase）的资料，肯定是单独组织的。不会共享。

　　你这个问题，问的太大了。目前可能有很多人都在熟悉使用hadoop，当然就会有很多人研究它了。默认的集群环境并不是最优的，所以为了提升集群的性能，人们就开始研究hadoop的优化了。现在，通常从以下几个方面对hadoop进行优化：
1、数据放置和数据副本数量的选择。集群默认情况一般有三个副本，并且集群默认每个节点的计算能力是一样的，在分配数据块的时候，均匀分布在每个节点上。实际环境中，更多的是每个节点得各方面能力是不同的，比如计算能力，那么原有的数据分配方式就那么合适了，需要根据节点的能力，合理的放置数据块，从而提升性能。数据副本的数量也会影响hadoop的性能，这里边涉及到数据迁移的问题。
2、参数配置方面。例如数据块的大小当前大多数是128或者64m，相对来说是比较合理的。那么这个值真的适合你的集群环境吗？是否有方法可以计算出集群的最优状态下的数据块大小，这个需要研究。当然还有很多参数，需要优化，比如容器大小，内存分配，map和reduce数量等。
3、作业调度问题。给你一堆的job，如何合理的调度使得执行最快。这也是优化的方向，虽然集群有默认的三种调度策略，但并不一定是最好的。
当然还有很多优化，这里就不一一列举了，如果你感兴趣，可以去网上搜索更多的参考资料！