hadoop集群指的是一群机器在一起提供一个hadoop的集群的服务。
hadoop分布式指的是hadoop支持任务分布式运行,因为有hadoop集群提供服务,所以hadoop将任务分发到集群的多台机器运行,所以叫做分布式。
一个是服务器架构,一个是任务运行架构。
若在windows的eclipse工程中直接启动mapreduc程序,需要先把hadoop集群的配置目录下的xml都拷贝到src目录下,让程序自动读取集群的地址后去进行分布式运行(您也可以自己写java代码去设置job的configuration属性)。 若不拷贝,工程中bin目录没有完整的xml配置文件,则windows执行的mapreduce程序全部通过本机的jvm执行,作业名也是带有“local"字眼的作业,如 job_local2062122004_0001。 这不是真正的分布式运行mapreduce程序。
估计得研究org.apache.hadoop.conf.configuration的源码,反正xml配置文件会影响执行mapreduce使用的文件系统是本机的windows文件系统还是远程的hdfs系统; 还有影响执行mapreduce的mapper和reducer的是本机的jvm还是集群里面机器的jvm
二、 本文的结论
第一点就是: windows上执行mapreduce,必须打jar包到所有slave节点才能正确分布式运行mapreduce程序。(我有个需求是要windows上触发一个mapreduce分布式运行)
第二点就是: linux上,只需拷贝jar文件到集群master上,执行命令hadoop jarpackage.jar mainclassname即可分布式运行mapreduce程序。
第三点就是: 推荐使用附一,实现了自动打jar包并上传,分布式执行的mapreduce程序。
附一、 推荐使用此方法:实现了自动打jar包并上传,分布式执行的mapreduce程序:
请先参考博文五篇:
hadoop作业提交分析(一)~~(五)
引用博文的附件中ejob.java到你的工程中,然后main中添加如下方法和代码。
public static file createpack() throws ioexception {
file jarfile = ejob.createtempjar("bin");
classloader classloader = ejob.getclassloader();
thread.currentthread().setcontextclassloader(classloader);
return jarfile;
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....