使用MapReduce把Nutch提取的Segment中data文件里信息保存到Hbase里。
刚刚接触MapReduce和Nutch,练习的处理一个功能。所以有很多不足之处。例如获取编码和获取域名
分享出来想请大家指点,纠正一下。请不要喷我,谢谢!
本人运行时在Linux环境hadoop命令中。
前提是已经把Segment中data全保存在一个文件夹中。
因为是敲进来得代码,有误请见谅。
应该是hadoop在hbase和hive中的作用吧。 hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。而hbase是作为分布式数据库,而hive是作为分布式数据仓库。当然hive还是借用hadoop的mapreduce来完成一些hive中的命令的执行。而hbase与hive都是单独安装的。你需要哪个安装哪个,所以不存在重复信息。
hadoop作为底层存储是说hdfs吗 hdfs和hbase 还有hive到底谁担任数据库呢 具体怎么分工?
我的意思是 如果有多个数据库的话 数据库资料不会重复吗?
hdfs作为底层存储,hdfs是存放文件的系统,而hbase负责组织文件。hive需要用到hdfs存储文件,需要用到mapreduce计算框架。 多个数据库(hbase)的资料,肯定是单独组织的。不会共享。
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....